Best 语音语言模型 AI Tools & Models - Premium 语音语言模型 News

AI News

阿里通义千问重磅开源 Qwen3-TTS：97ms超低延迟语音合成，3秒克隆+一句话设计音色，彻底颠覆实时AI语音！

阿里通义千问团队开源Qwen3-TTS系列语音生成模型，采用端到端架构，支持秒级音色克隆、自然语言音色设计和实时流式输出。其核心创新Dual-Track双轨混合流式生成机制结合离散多码本语言模型，实现极致低延迟，大幅降低实时应用门槛。

东软集团携手 Cerence AI，打造未来智能座舱新体验

东软集团与Cerence AI达成战略合作，共同开发新一代智能座舱平台，聚焦智能语音与大语言模型技术，为全球车企提供高效、预集成的智能交互解决方案。东软将依托其NAGIC智能座舱平台，结合Cerence AI的前沿技术，满足市场对智能座舱日益增长的需求。

10.4k 4 hours ago

xAI 推最快语音代理 API，支持中文实时搜索与情绪控制

xAI发布Grok语音代理API，每分钟仅0.05美元，性价比极高。该模型在音频推理基准测试中表现最佳，首音延迟不到1秒，响应速度比竞品快近5倍。支持包括中文在内的数十种语言自动检测与切换，并集成实时网页搜索与推理能力，提升回复质量。

12.2k 8 hours ago

微信输入法iOS版3. 0 重磅上线： 15 种方言全覆盖，语音输入无时长限制，离线也能用

微信输入法iOS版升级至3.0.0，核心转向语音优先交互。新版重构语音输入，底层大模型全面升级，提升识别速度与准确度，并加强实用性、语言覆盖和隐私保护。最大亮点是新增对15种中国方言的深度支持，如粤语等。

11.9k 2 hours ago

AI Products

Hathora

提供语音AI的ASR、TTS和LLM模型，可测试部署用于实时应用。

开发平台

7.7k

Spark-TTS

Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。

文本转声音

18.4k

ElevenLabs Scribe

Scribe 是全球最准确的语音转文字模型，支持99种语言。

语音识别

12k

Zonos

Zonos-v0.1 是一个领先的开放权重文本到语音模型，能够生成高质量的多语言语音。

文本转声音

15.1k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

阿里通义千问重磅开源 Qwen3-TTS：97ms超低延迟语音合成，3秒克隆+一句话设计音色，彻底颠覆实时AI语音！

东软集团携手 Cerence AI，打造未来智能座舱新体验

xAI 推最快语音代理 API，支持中文实时搜索与情绪控制

​微信输入法iOS版3. 0 重磅上线： 15 种方言全覆盖，语音输入无时长限制，离线也能用

AI Products

Hathora

Spark-TTS

ElevenLabs Scribe

Zonos

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-coder-plus

qwen3-vl-plus

qwen3-max

qwen3-vl-235b-a22b-thinking

Qianfan-Lightning

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Doubao-Seed-Translation

Svara Tts V1

Kani Tts 400m Es

Kani Tts 400m Ar

Kani Tts 400m En

Whisper Small Serlabs Twi Asr

Kani Tts 400m 0.3 Pt

Kani Tts 370m

Kani Tts 450m 0.2 Pt

Neutts Air Q8 Gguf

Neutts Air Q4 Gguf

MiMo Audio 7B Instruct

MiMo Audio 7B Base

Neutts Air

Borealis

Cast 0.7b S2s

Midashenglm 7b 0804 Bf16

Step Audio 2 Mini

Omnivinci

Parakeet Tdt 0.6b V3 Coreml

Parakeet Tdt 0.6b V3 Onnx

微信输入法iOS版3. 0 重磅上线： 15 种方言全覆盖，语音输入无时长限制，离线也能用