簡要介紹阿里雲已開源其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型,實現多語言和挑戰性聲學條件下的最先進語音識別與強制對齊性能。阿里雲宣布已將其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型開源,提供先進的語音識別與強制對齊工具。Qwen3-ASR 系列包括兩款全能模型,Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B,支持52種語言和口音的語言識別與轉錄,利用大規模語音數據和 Qwen3-Omni 基礎模型。內部測試顯示,1.7B 模型在開源語音識別系統中達到最先進的準確率,而 0.6B 版本則在性能與效率之間取得平衡,能在一秒內轉錄2000秒的語音,並具有高併發能力。Qwen3-ForcedAligner-0.6B 模型採用非自回歸大型語言模型(LLM)方法,在11種語言中進行文本與語音的對齊,速度與準確率均優於領先的強制對齊解決方案。阿里雲還發布了一個基於 Apache 2.0 許可的全面推理框架,支持串流、批次處理、時間戳預測和微調,旨在加速音頻理解的研究與實踐應用。## Qwen3-ASR 和 Qwen3-ForcedAligner 模型展現領先的準確率與效率阿里雲已發布其 Qwen3-ASR 和 Qwen3-ForcedAligner 模型的性能結果,展現多樣語音識別任務中的領先準確率與效率。Qwen3-ASR-1.7B 模型在開源系統中達到最先進的結果,在英語、多語言和中文方言識別方面超越商業API和其他開源模型,包括粵語和22個地區變體。在低信噪比、兒童或老年人語音,甚至歌聲轉錄等挑戰性聲學條件下,仍能保持可靠的準確率,中文平均字錯誤率為13.91%,英文為14.60%,背景有音樂。較小的 Qwen3-ASR-0.6B 在準確率與效率之間取得平衡,在高併發下提供高吞吐量和低延遲,能在128併發的線上非同步模式下轉錄長達五小時的語音。同時,Qwen3-ForcedAligner-0.6B 在語言覆蓋範圍、時間戳準確率和支持多樣語音與音頻長度方面,超越包括 Nemo-Forced-Aligner、WhisperX 和 Monotonic-Aligner 在內的領先端到端強制對齊模型。
Qwen 開源先進的語音識別(ASR)和強制對齊模型,具備多語言能力
簡要介紹
阿里雲已開源其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型,實現多語言和挑戰性聲學條件下的最先進語音識別與強制對齊性能。
阿里雲宣布已將其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型開源,提供先進的語音識別與強制對齊工具。
Qwen3-ASR 系列包括兩款全能模型,Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B,支持52種語言和口音的語言識別與轉錄,利用大規模語音數據和 Qwen3-Omni 基礎模型。
內部測試顯示,1.7B 模型在開源語音識別系統中達到最先進的準確率,而 0.6B 版本則在性能與效率之間取得平衡,能在一秒內轉錄2000秒的語音,並具有高併發能力。
Qwen3-ForcedAligner-0.6B 模型採用非自回歸大型語言模型(LLM)方法,在11種語言中進行文本與語音的對齊,速度與準確率均優於領先的強制對齊解決方案。
阿里雲還發布了一個基於 Apache 2.0 許可的全面推理框架,支持串流、批次處理、時間戳預測和微調,旨在加速音頻理解的研究與實踐應用。
Qwen3-ASR 和 Qwen3-ForcedAligner 模型展現領先的準確率與效率
阿里雲已發布其 Qwen3-ASR 和 Qwen3-ForcedAligner 模型的性能結果,展現多樣語音識別任務中的領先準確率與效率。
Qwen3-ASR-1.7B 模型在開源系統中達到最先進的結果,在英語、多語言和中文方言識別方面超越商業API和其他開源模型,包括粵語和22個地區變體。
在低信噪比、兒童或老年人語音,甚至歌聲轉錄等挑戰性聲學條件下,仍能保持可靠的準確率,中文平均字錯誤率為13.91%,英文為14.60%,背景有音樂。
較小的 Qwen3-ASR-0.6B 在準確率與效率之間取得平衡,在高併發下提供高吞吐量和低延遲,能在128併發的線上非同步模式下轉錄長達五小時的語音。
同時,Qwen3-ForcedAligner-0.6B 在語言覆蓋範圍、時間戳準確率和支持多樣語音與音頻長度方面,超越包括 Nemo-Forced-Aligner、WhisperX 和 Monotonic-Aligner 在內的領先端到端強制對齊模型。