2026年5月28日,全球AI評測平臺Artificial Analysis發佈語音排行榜,阿里巴巴的Fun-Realtime-TTS-Preview語音大模型以1190分獲全球第五、國產第一。該模型在ASR等三大核心語音賽道均居國內榜首,展現全面領先實力。
小米發佈MiMo-V2.5全鏈路語音模型系列,包括三款TTS模型和一款開源ASR模型,覆蓋語音輸入與輸出。TTS模型能精準調度情緒、語氣和角色身份,讓聲音可編程、可創作、可復刻,提升人機交互自然度,開啓語音智能新紀元。
小米發佈MiMo-V2.5系列大模型,包含MiMo-V2.5、V2.5-Pro及配套TTS與ASR模型,標誌着模型從“能用”到“好用”的升級。其中旗艦型號MiMo-V2.5-Pro在通用智能體能力和軟件工程方面已能與Claude Opus4.6、GPT-5.4等頂尖模型競爭,核心優勢在於高指令遵循度和自我修正能力。
微軟開源VibeVoice語音AI模型,支持ASR和TTS,具備長音頻處理、多說話人對話生成及實時低延遲特性,已在GitHub獲27K星。採用MIT協議,支持本地部署,無需雲端費用,旨在推動語音合成領域創新。
Seed Audio AI 含 TTS、ASR 等,通過 API 為創作者和開發者生成音頻
提供語音AI的ASR、TTS和LLM模型,可測試部署用於即時應用。
Nexa SDK可在數分鐘內將AI模型部署到任何設備上,快速、私密且適用於多場景。
PengChengStarling 是一個基於 icefall 項目的多語言自動語音識別(ASR)模型開發工具包。
Anthropic
$7
輸入tokens/百萬
$35
輸出tokens/百萬
200
上下文長度
Alibaba
-
Chatglm
128
ai-sage
GigaAM-v3是基於Conformer架構的俄語自動語音識別基礎模型,擁有2.2-2.4億參數。它是GigaAM系列的第三代模型,在70萬小時俄語語音數據上使用HuBERT-CTC目標進行預訓練,在廣泛的俄語ASR領域提供最先進的性能。
abr-ai
這是一個由Applied Brain Research(ABR)開發的基於狀態空間模型(SSM)的英文自動語音識別模型,擁有約1900萬參數,能夠高效準確地將英文語音轉錄為文本。該模型在多個基準數據集上表現出色,平均單詞錯誤率僅為10.61%,支持即時語音識別並可在低成本硬件上運行。
Vikhrmodels
Borealis 是首款面向俄語的自動語音識別(ASR)音頻大語言模型,經過約7000小時俄語音頻數據訓練。該模型支持識別音頻中的標點符號,架構受Voxtral啟發但有所改進,在多個俄語ASR基準測試中表現優異。
openchs
基於OpenAI Whisper Large v2在Common Voice 17.0斯瓦希里語數據集上微調的語音識別模型,專為坦桑尼亞兒童求助熱線的斯瓦希里語語音識別任務設計,相比基礎模型在斯瓦希里語識別準確率上有顯著提升。
MediaTek-Research
Breeze ASR 25 是一款基於 Whisper-large-v2 微調的先進自動語音識別模型,特別優化了臺灣普通話和普通話-英語代碼切換場景的識別能力。
unsloth
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,通過68萬小時標註數據訓練,具有強大的泛化能力。
Whisper是OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標記數據上訓練,具有強大的零樣本泛化能力。Turbo版本是原版的修剪微調版本,解碼層從32層減少到4層,速度大幅提升但質量略有下降。
Whisper是OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,支持多種語言
istupakov
NVIDIA Parakeet TDT 0.6B V2 是一個基於自動語音識別(ASR)任務的模型,適用於英語語音轉文本任務。
mlx-community
該模型是基於FastConformer架構的日語自動語音識別(ASR)模型,由NVIDIA開發並轉換為MLX格式。
ibm-granite
Granite-speech-3.3-2b是IBM開發的緊湊高效語音語言模型,專為自動語音識別(ASR)和自動語音翻譯(AST)設計,採用雙通設計提高模塊化和安全性。
GigaAM v2 是一個自動語音識別(ASR)模型,支持俄語語音轉文本任務,提供CTC和RNN-T兩種架構。
benax-rw
KinyaWhisper是基於OpenAI Whisper模型微調的盧旺達語自動語音識別(ASR)系統,專為低資源土著語言設計。
專為自動語音識別(ASR)和自動語音翻譯(AST)設計的緊湊高效語音語言模型,採用雙階段設計處理音頻和文本
Purfview
Distil-Whisper是Whisper模型的蒸餾版本,針對自動語音識別(ASR)任務進行了優化,提供更快的推理速度。
sbapan41
Quantum_STT 是一種先進的自動語音識別(ASR)和語音翻譯模型,基於大規模弱監督訓練,支持多種語言和任務。
asr-africa
基於facebook/w2v-bert-2.0微調的豪薩語語音識別模型,在500小時豪薩語數據上訓練,詞錯誤率7.47%
waveletdeboshir
GigaAM-v2-RNNT 是一個俄語自動語音識別(ASR)模型,基於RNNT架構,適用於語音轉文本任務。
Granite-speech-3.2-8b 是一款緊湊高效的語音語言模型,專為自動語音識別(ASR)和自動語音翻譯(AST)設計。
pluttodk
目前最快的丹麥語ASR模型,是hviske-v2的蒸餾版本,速度提升約4倍且保持準確率不變。
ASR MCP服務器是一個基於whisper引擎的自動語音識別服務,通過MCP工具提供語音合成功能,便於應用集成。