Speechify發佈原生Windows客戶端,從文本轉語音工具升級爲全棧語音助手。應用集成三類本地AI模型,支持跨應用實時聽寫與文檔轉錄,對標Superwhisper等競品。爲保障響應速度與隱私,在Copilot+ PC等高性能設備上支持完全本地化運行,用戶無需上傳音頻至雲端,即可利用本地NPU或GPU驅動的Whisper模型。
馬斯克旗下xAI公司正式推出Grok文本轉語音Speech API,使AI助手具備語音交互能力。此舉不僅拓展了Grok的多模態功能,更爲開發者提供了便捷接口,可將其對話能力集成至各類應用,推動AI生態向更擬人化方向發展。
IBM推出Granite4.01B Speech語音模型,專爲邊緣計算和企業部署設計。該模型參數量減半,但性能顯著提升,支持多語種自動語音識別和雙向翻譯,新增日語識別和關鍵詞偏置功能,並大幅提高英文轉錄準確率。
Speechify在Chrome擴展中新增語音檢測功能,支持語音輸入和語音助手,旨在提升文檔處理效率。該功能利用先進語音識別技術,實時糾錯並自動刪除多餘填充詞,幫助用戶在競爭激烈的語音工具市場中脫穎而出。
FineVoice可將文本轉換為超1500種逼真AI語音,支持風格、速度等多方面自定義。
Voco Speech是適用於Mac的離線AI語音克隆和文本轉語音工具,有免費額度和無限克隆。
BlabbyAI Chrome擴展,快速準確將語音轉換為文本,支持任意網站語音輸入。
將您的想法說出來,即可在幾秒鐘內獲得一封專業的郵件,隨時發送。
Ken-Z
本模型是microsoft/speech-t5的微調版本,專門針對拉丁語進行了優化訓練。它使用了來自Vox Classica數據集的67小時拉丁語音頻數據進行訓練,能夠實現高質量的拉丁語文本轉語音功能。
BUT-FIT
SE-DiCoW是由BUT Speech@FIT聯合JHU CLSP/HLTCOE和CMU LTI開發的目標說話人多說話人自動語音識別模型。該模型基於Whisper large-v3-turbo,通過自注冊機制和改進的數據增強技術,在高度重疊的多說話人場景下顯著提升了識別準確率。
unsloth
Orpheus TTS 是一款基於 Llama 的先進語音大語言模型(Speech-LLM),專為生成高質量、富有情感的語音而設計。
griffing52
基於microsoft/speecht5_tts微調的語音合成模型,適用於語音合成任務。
prithivMLmods
基於facebook/wav2vec2-base-960h微調的語音情感分類模型,專門用於從音頻信號中準確識別和分類說話者的8種不同情感狀態。
panchajanya-ai
基於 speechbrain/lang-id-commonlanguage_ecapa 的多語言音頻分類模型,支持5種印度語言識別
MAdel121
這是一個針對埃及阿拉伯語方言進行微調的Whisper-small自動語音識別模型,基於SpeechBrain工具包訓練
danhtran2mind
這是一個基於Microsoft SpeechT5微調的越南語文本轉語音模型,能夠將越南語文本轉換為自然語音,支持男性和女性兩種語音輸出。
eeizenman
SpeechT5 是一個基於 Transformer 的文本轉語音模型,支持多種語言的語音合成。
omarViga
基於微軟SpeechT5架構微調的西班牙語文本轉語音模型,在mabama-v6數據集上訓練
suayptalha
基於microsoft/speecht5_tts微調的語音合成模型,支持文本轉語音任務
benjaminogbonna
基於microsoft/speecht5_tts微調的文本轉語音模型
ahmeterdempmk
基於微軟SpeechT5架構的土耳其語文本轉語音模型,經過特定數據集微調優化
Epikwhale
基於微軟SpeechT5架構微調的泰盧固語文本轉語音模型,針對泰盧固語獨特的音素結構和文本模式進行了優化。
Willy030125
基於pyannote/speaker-diarization-3.0修改的說話人分割模型,使用speechbrain/spkrec-ecapa-voxceleb進行說話人嵌入,在某些測試中表現更優
GaborMadarasz
基於微軟SpeechT5微調的匈牙利語文本轉語音模型,支持單說話人語音合成
mradermacher
這是對Menlo/Speechless-llama3.2-v0.1模型進行加權/重要性矩陣量化的結果,提供多種量化版本
基於Menlo/Speechless-llama3.2-v0.1的靜態量化版本,支持英語和越南語的多語言處理。
hungphan111
基於microsoft/speecht5_tts模型在voxpopuli數據集上微調的文本轉語音模型
speechbrain
這是一個基於25000小時英文語音數據集訓練的大規模自動語音識別模型,採用Conformer架構,由三星AI劍橋中心貢獻。模型參數量達4.8億,在多個測試集上表現出色,驗證集WER為6.8%,測試集WER為7.5%。
基於Windows原生語音API的語音轉換MCP服務
Speech MCP 是一個為Goose設計的語音交互擴展,提供即時語音識別、文本轉語音和音頻可視化功能。
Speech MCP是為Goose設計的語音交互擴展,提供即時語音識別、高質量文本轉語音、多語言支持和現代化音頻可視化界面,支持多角色對話生成和音頻轉錄功能。
一個基於Kokoro TTS模型的文本轉語音MCP服務器,提供高質量的語音合成服務