最好的Speech AI工具模型_精選Speech資訊 - AIBase

AI資訊

首包延遲300ms、支持20種方言:通義千問Qwen-Audio-3.0-TTS正式開放

阿里通義千問發佈新一代實時語音合成模型Qwen-Audio-3.0-TTS，實現從“能說話”到“會表達”的跨越。Plus版本在Artificial Analysis Speech Arena排名全球第一，超越Gemini3.1TTS等主流模型。雙版本中Flash版主打低延遲實時交互（首包約300ms），Plus版專攻高質量自然度與音色還原。

16.7k 11 分鐘前

首包延遲300ms、支持20種方言:通義千問Qwen-Audio-3.0-TTS正式開放

階躍語音模型位列全球評測前三，創下中國大模型聽感新高

中國階躍星辰的語音生成模型StepAudio2.5TTS在Artificial Analysis Speech Arena Leaderboard中躋身全球前三，成爲排名最高的中國大模型產品。該榜單採用盲測Elo評分機制，用戶在不瞭解模型身份的情況下評估聽感，突顯了其真實語音合成實力。

階躍語音模型位列全球評測前三，創下中國大模型聽感新高

算力本地化：Speechify 推出原生 Windows 應用挑戰系統級聽寫

Speechify發佈原生Windows客戶端，從文本轉語音工具升級爲全棧語音助手。應用集成三類本地AI模型，支持跨應用實時聽寫與文檔轉錄，對標Superwhisper等競品。爲保障響應速度與隱私，在Copilot+ PC等高性能設備上支持完全本地化運行，用戶無需上傳音頻至雲端，即可利用本地NPU或GPU驅動的Whisper模型。

算力本地化：Speechify 推出原生 Windows 應用挑戰系統級聽寫

馬斯克 xAI 上線語音 API：AI 嘴替爭霸戰再次升級

馬斯克旗下xAI公司正式推出Grok文本轉語音Speech API，使AI助手具備語音交互能力。此舉不僅拓展了Grok的多模態功能，更爲開發者提供了便捷接口，可將其對話能力集成至各類應用，推動AI生態向更擬人化方向發展。

馬斯克 xAI 上線語音 API：AI 嘴替爭霸戰再次升級

AI產品

FineVoice Text to Speech

FineVoice Text to Speech

FineVoice可將文本轉換為超1500種逼真AI語音，支持風格、速度等多方面自定義。

文本轉聲音

Voco Speech

Voco Speech

Voco Speech是適用於Mac的離線AI語音克隆和文本轉語音工具，有免費額度和無限克隆。

BlabbyAI Speech to text

BlabbyAI Speech to text

BlabbyAI Chrome擴展，快速準確將語音轉換為文本，支持任意網站語音輸入。

語音轉文本

Speechly

Speechly

將您的想法說出來，即可在幾秒鐘內獲得一封專業的郵件，隨時發送。

模型

Latin_SpeechT5

Ken-Z

本模型是microsoft/speech-t5的微調版本，專門針對拉丁語進行了優化訓練。它使用了來自Vox Classica數據集的67小時拉丁語音頻數據進行訓練，能夠實現高質量的拉丁語文本轉語音功能。

Safetensors

Safetensors其他

SE_DiCoW

BUT-FIT

SE-DiCoW是由BUT Speech@FIT聯合JHU CLSP/HLTCOE和CMU LTI開發的目標說話人多說話人自動語音識別模型。該模型基於Whisper large-v3-turbo，通過自注冊機制和改進的數據增強技術，在高度重疊的多說話人場景下顯著提升了識別準確率。

Transformers

Transformers其他

Orpheus 3b 0.1 Ft GGUF

unsloth

Orpheus TTS 是一款基於 Llama 的先進語音大語言模型（Speech-LLM），專為生成高質量、富有情感的語音而設計。

Transformers

Transformers英語

Speecht5_finetuned_griffin_ch_lu

griffing52

基於microsoft/speecht5_tts微調的語音合成模型，適用於語音合成任務。

Transformers

Speech Emotion Classification

prithivMLmods

基於facebook/wav2vec2-base-960h微調的語音情感分類模型，專門用於從音頻信號中準確識別和分類說話者的8種不同情感狀態。

Transformers

Transformers英語

Vaani

panchajanya-ai

基於 speechbrain/lang-id-commonlanguage_ecapa 的多語言音頻分類模型，支持5種印度語言識別

Speechbrain

Speechbrain多語言

Whisper Small Egyptian Arabic

MAdel121

這是一個針對埃及阿拉伯語方言進行微調的Whisper-small自動語音識別模型，基於SpeechBrain工具包訓練

Transformers

Transformers多語言

Viet SpeechT5 TTS Finetuning

danhtran2mind

這是一個基於Microsoft SpeechT5微調的越南語文本轉語音模型，能夠將越南語文本轉換為自然語音，支持男性和女性兩種語音輸出。

Safetensors

Safetensors其他

Speecht5_finetuned_voxpopuli_it

eeizenman

SpeechT5 是一個基於 Transformer 的文本轉語音模型，支持多種語言的語音合成。

Tensorboard

Tensorboard其他

SpeechT5_TTS_Spanish

omarViga

基於微軟SpeechT5架構微調的西班牙語文本轉語音模型，在mabama-v6數據集上訓練

Transformers

Transformers西班牙語

SpeechT5 Elise

suayptalha

基於microsoft/speecht5_tts微調的語音合成模型，支持文本轉語音任務

Transformers

Demo_text_to_speech

benjaminogbonna

基於microsoft/speecht5_tts微調的文本轉語音模型

Transformers

benjaminogbonna

SpeechT5 Turkish Tuned

ahmeterdempmk

基於微軟SpeechT5架構的土耳其語文本轉語音模型，經過特定數據集微調優化

Transformers

Speecht5_finetuned_telugu_charan

Epikwhale

基於微軟SpeechT5架構微調的泰盧固語文本轉語音模型，針對泰盧固語獨特的音素結構和文本模式進行了優化。

Transformers

Transformers其他

Speaker Diarization 2.5

Willy030125

基於pyannote/speaker-diarization-3.0修改的說話人分割模型，使用speechbrain/spkrec-ecapa-voxceleb進行說話人嵌入，在某些測試中表現更優

Pyannote.audio

Speecht5_tts_KTH_hu

GaborMadarasz

基於微軟SpeechT5微調的匈牙利語文本轉語音模型，支持單說話人語音合成

Tensorboard

Tensorboard其他

Speechless Llama3.2 V0.1 I1 GGUF

mradermacher

這是對Menlo/Speechless-llama3.2-v0.1模型進行加權/重要性矩陣量化的結果，提供多種量化版本

自然語言處理

Gguf

Speechless Llama3.2 V0.1 GGUF

mradermacher

基於Menlo/Speechless-llama3.2-v0.1的靜態量化版本，支持英語和越南語的多語言處理。

自然語言處理

Gguf

Speecht5_finetuned_voxpopuli_lt

hungphan111

基於microsoft/speecht5_tts模型在voxpopuli數據集上微調的文本轉語音模型

Transformers

Asr Conformer Loquacious

speechbrain

這是一個基於25000小時英文語音數據集訓練的大規模自動語音識別模型，採用Conformer架構，由三星AI劍橋中心貢獻。模型參數量達4.8億，在多個測試集上表現出色，驗證集WER為6.8%，測試集WER為7.5%。

Speechbrain

Speechbrain英語

MCP

Text To Speech (Windows)

Text To Speech (Windows)

基於Windows原生語音API的語音轉換MCP服務

Speech Interface (Faster Whisper)

Speech Interface (Faster Whisper)

Speech MCP 是一個為Goose設計的語音交互擴展，提供即時語音識別、文本轉語音和音頻可視化功能。

speech-mcp

Speech Mcp

Speech MCP是為Goose設計的語音交互擴展，提供即時語音識別、高質量文本轉語音、多語言支持和現代化音頻可視化界面，支持多角色對話生成和音頻轉錄功能。

Kokoro Speech

Kokoro Speech

一個基於Kokoro TTS模型的文本轉語音MCP服務器，提供高質量的語音合成服務

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

© 2026AIBase

商務合作網站地圖