語音AI公司Wispr完成2500萬美元B+輪融資,總融資額達8100萬美元。其產品Flow Dictation上線三個月後,50%字符通過語音輸入,已服務270家財富500強企業及125家付費機構。用戶年同比增長100倍,12個月留存率70%,月環比增速穩定在40%。自研ASR錯誤率僅10%,技術表現突出。
Meta發佈Omnilingual ASR系統,突破AI語音技術侷限,首次實現對1600種語言的高精度識別。系統採用“上下文學習”機制,僅需少量音頻樣本即可快速學習新語言。這一開源技術打破語言“精英壟斷”,推動數字平權,助力瀕危和小語種社區融入AI時代。
Meta推出Omnilingual ASR語音識別系統,支持轉錄1600多種語言,其中500種語言首次被AI覆蓋。該系統旨在解決全球7000多種語言中多數缺乏AI支持的問題,突破以往僅聚焦幾百種主流語言的侷限。
Meta推出Omnilingual ASR自動語音識別系統,支持轉錄超1600種口語語言,旨在解決AI工具語言覆蓋不足問題。該系統突破傳統僅專注少數主流語言的侷限,推動實現“通用轉錄系統”目標,助力彌合全球數千種語言缺乏AI支持的差距。
提供語音AI的ASR、TTS和LLM模型,可測試部署用於即時應用。
Nexa SDK可在數分鐘內將AI模型部署到任何設備上,快速、私密且適用於多場景。
PengChengStarling 是一個基於 icefall 項目的多語言自動語音識別(ASR)模型開發工具包。
百聆是一個類似GPT-4o的語音對話機器人,通過ASR+LLM+TTS實現,低配置也可運行,支持打斷。
Vikhrmodels
Borealis 是首款面向俄語的自動語音識別(ASR)音頻大語言模型,經過約7000小時俄語音頻數據訓練。該模型支持識別音頻中的標點符號,架構受Voxtral啟發但有所改進,在多個俄語ASR基準測試中表現優異。
openchs
基於OpenAI Whisper Large v2在Common Voice 17.0斯瓦希里語數據集上微調的語音識別模型,專為坦桑尼亞兒童求助熱線的斯瓦希里語語音識別任務設計,相比基礎模型在斯瓦希里語識別準確率上有顯著提升。
MediaTek-Research
Breeze ASR 25 是一款基於 Whisper-large-v2 微調的先進自動語音識別模型,特別優化了臺灣普通話和普通話-英語代碼切換場景的識別能力。
unsloth
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,通過68萬小時標註數據訓練,具有強大的泛化能力。
Whisper是OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標記數據上訓練,具有強大的零樣本泛化能力。Turbo版本是原版的修剪微調版本,解碼層從32層減少到4層,速度大幅提升但質量略有下降。
Whisper是OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,支持多種語言
istupakov
NVIDIA Parakeet TDT 0.6B V2 是一個基於自動語音識別(ASR)任務的模型,適用於英語語音轉文本任務。
mlx-community
該模型是基於FastConformer架構的日語自動語音識別(ASR)模型,由NVIDIA開發並轉換為MLX格式。
ibm-granite
Granite-speech-3.3-2b是IBM開發的緊湊高效語音語言模型,專為自動語音識別(ASR)和自動語音翻譯(AST)設計,採用雙通設計提高模塊化和安全性。
GigaAM v2 是一個自動語音識別(ASR)模型,支持俄語語音轉文本任務,提供CTC和RNN-T兩種架構。
benax-rw
KinyaWhisper是基於OpenAI Whisper模型微調的盧旺達語自動語音識別(ASR)系統,專為低資源土著語言設計。
專為自動語音識別(ASR)和自動語音翻譯(AST)設計的緊湊高效語音語言模型,採用雙階段設計處理音頻和文本
Purfview
Distil-Whisper是Whisper模型的蒸餾版本,針對自動語音識別(ASR)任務進行了優化,提供更快的推理速度。
sbapan41
Quantum_STT 是一種先進的自動語音識別(ASR)和語音翻譯模型,基於大規模弱監督訓練,支持多種語言和任務。
asr-africa
基於facebook/w2v-bert-2.0微調的豪薩語語音識別模型,在500小時豪薩語數據上訓練,詞錯誤率7.47%
waveletdeboshir
GigaAM-v2-RNNT 是一個俄語自動語音識別(ASR)模型,基於RNNT架構,適用於語音轉文本任務。
Granite-speech-3.2-8b 是一款緊湊高效的語音語言模型,專為自動語音識別(ASR)和自動語音翻譯(AST)設計。
pluttodk
目前最快的丹麥語ASR模型,是hviske-v2的蒸餾版本,速度提升約4倍且保持準確率不變。
GigaAM-v2-CTC 是一個俄語自動語音識別(ASR)模型,基於CTC損失函數訓練,可通過Hugging Face transformers庫使用。
junnei
基於microsoft/Phi-4-multimodal-instruct微調的韓語自動語音識別(ASR)和語音翻譯(AST)模型,在zeroth-korean和fleurs數據集上表現優異。
ASR MCP服務器是一個基於whisper引擎的自動語音識別服務,通過MCP工具提供語音合成功能,便於應用集成。