今日,阿里千問團隊宣布開源Qwen3-ASR系列模型,這一系列包含兩個語音識別模型Qwen3-ASR-1.7B與Qwen3-ASR-0.6B,以及一個語音強制對齊模型Qwen3-ForcedAligner-0.6B。這些模型支持52個語種與方言的識別,依托預訓練AuT語音編碼器和Qwen3-Omni基座模型,實現(xiàn)了精準穩(wěn)定的語音識別。Qwen3-ASR-1.7B在中文、英文等場景下達到SOTA,具備復雜文本識別能力和強噪聲下的穩(wěn)定性;而0.6B模型則在性能與效率上取得均衡,128并發(fā)異步服務推理能實現(xiàn)2000倍吞吐,即10秒處理五小時音頻。
Qwen3-ASR系列模型的核心特性包括All-in-one支持多語種識別、準確快速的語音識別能力、流式/非流式一體化推理,以及獨創(chuàng)的強制對齊模型。這些模型在中文/英文、多語種、中文方言、歌聲識別及復雜聲學與語言場景下進行了系統(tǒng)評估,顯示出在多個維度的公開與內(nèi)部基準上取得SOTA。此外,Qwen3-ForcedAligner-0.6B模型支持11個語種的高精度強制對齊,時間戳預測精度超越傳統(tǒng)模型,單并發(fā)推理RTF達到0.0089。阿里千問團隊希望Qwen3-ASR系列模型的開源能推動語音識別與理解的研究與發(fā)展,并將提供模型結構、權重及推理框架的開源。



來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)(www.cbbreul.com)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權請聯(lián)系郵件刪除。