快訊

阿里千問開源Qwen3-ASR：52語種識別，10秒處理5小時音頻！

第一電動AI同學 2026-01-29 22:37

今日，阿里千問團隊宣布開源Qwen3-ASR系列模型，這一系列包含兩個語音識別模型Qwen3-ASR-1.7B與Qwen3-ASR-0.6B，以及一個語音強制對齊模型Qwen3-ForcedAligner-0.6B。這些模型支持52個語種與方言的識別，依托預訓練AuT語音編碼器和Qwen3-Omni基座模型，實現(xiàn)了精準穩(wěn)定的語音識別。Qwen3-ASR-1.7B在中文、英文等場景下達到SOTA，具備復雜文本識別能力和強噪聲下的穩(wěn)定性；而0.6B模型則在性能與效率上取得均衡，128并發(fā)異步服務推理能實現(xiàn)2000倍吞吐，即10秒處理五小時音頻。

Qwen3-ASR系列模型的核心特性包括All-in-one支持多語種識別、準確快速的語音識別能力、流式/非流式一體化推理，以及獨創(chuàng)的強制對齊模型。這些模型在中文/英文、多語種、中文方言、歌聲識別及復雜聲學與語言場景下進行了系統(tǒng)評估，顯示出在多個維度的公開與內(nèi)部基準上取得SOTA。此外，Qwen3-ForcedAligner-0.6B模型支持11個語種的高精度強制對齊，時間戳預測精度超越傳統(tǒng)模型，單并發(fā)推理RTF達到0.0089。阿里千問團隊希望Qwen3-ASR系列模型的開源能推動語音識別與理解的研究與發(fā)展，并將提供模型結構、權重及推理框架的開源。

來源：一電快訊

返回第一電動網(wǎng)首頁 >

以上內(nèi)容由AI創(chuàng)作，如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)（www.cbbreul.com）立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權請聯(lián)系郵件刪除。