Best 语音大模型 AI Tools & Models - Premium 语音大模型 News

AI News

特斯拉中国车机正式接入豆包大模型

特斯拉中国7月31日推送2026.14.13版本更新，覆盖Model 3/Y/S/X等车型。核心升级是接入豆包大模型，实现更精准的实时信息查询与自然流畅的语音对话，显著提升车内智能交互体验。

阿里发布语音识别新模型，医疗词汇"听中率"破 95%，曾拿全球最低错字率

阿里发布语音识别大模型Qwen-Audio-3.0-ASR-Flash，专注精准识别专业词汇。模型优化上下文一致性、行业词与热词定制，支持语音润色并直接输出结构化文本。团队构建了覆盖医疗、IT、股票等领域的多行业高质量词库，评测显示行业词识别效果显著提升。

15.2k 2 minutes ago

阿里千问发布Qwen-Audio-3.0-ASR-Flash，语音识别攻克专业场景"最后一公里"

7月31日，阿里通义千问发布语音识别大模型，主打长音频不丢词、行业词不用教。其升级点：长音频上下文记忆，确保会议转写一致；内置医疗、IT等行业词库，专业词召回率分别为95.36%和91.87%，无需人工配置。已在阿里云百炼平台开放调用。

16.6k 22 minutes ago

AI日报：Fish Audio发布S2.1Pro实时对话语音模型；Grok4.6定档8月7日；360发布企业智能体平台“纳米Work”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、支持耳语与情绪控制!FishAudio周年重磅发布S2.1Pro实时对话语音模型FishAudio在成立周年之际推出了其最新的生产级语音大模型S2.1Pro，该模型专为实时对话语音场景打造，具有极低的延迟和高拟真度交互能力，同时支持多说话人对话生成和高质量语音克隆。该工具具有低门槛的使用方式，支持多种认证方式，并提供TypeScriptSDK接口。

16.9k 1 hours ago

AI日报：Fish Audio发布S2.1Pro实时对话语音模型；Grok4.6定档8月7日；360发布企业智能体平台“纳米Work”

AI Products

Hathora

提供语音AI的ASR、TTS和LLM模型，可测试部署用于实时应用。

开发平台

9.7k

Spark-TTS

Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。

文本转声音

19k

podscript

一个用于生成播客及其他音频文件转录文本的工具，支持多种语言模型和语音识别API。

语音转文本

13.2k

百聆

百聆是一个类似GPT-4o的语音对话机器人，通过ASR+LLM+TTS实现，低配置也可运行，支持打断。

聊天机器人

13.1k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

MCP

1lc

基于大模型的智能对话机器人项目，支持多平台接入和多种AI模型，具备文本、语音、图像处理及插件扩展能力，可定制企业AI应用。

python

10.9k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

特斯拉中国车机正式接入豆包大模型

阿里发布语音识别新模型，医疗词汇"听中率"破 95%，曾拿全球最低错字率

阿里千问发布Qwen-Audio-3.0-ASR-Flash，语音识别攻克专业场景"最后一公里"

AI日报：Fish Audio发布S2.1Pro实时对话语音模型；Grok4.6定档8月7日；360发布企业智能体平台“纳米Work”

AI Products

Hathora

Spark-TTS

podscript

百聆

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-coder-plus

qwen3-vl-plus

Qianfan-Lightning

qwen3-max

qwen3-vl-235b-a22b-thinking

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Doubao-Seed-Translation

Wavjepa Base

Kani Tts 400m Es

Kani Tts 400m Ar

Kani Tts 400m En

Kani Tts 400m 0.3 Pt

Ming Flash Omni Preview

Kani Tts 370m

Kani Tts 450m 0.2 Pt

Neutts Air Q8 Gguf

Neutts Air Q4 Gguf

MiMo Audio 7B Instruct

MiMo Audio 7B Base

Neutts Air

Borealis

Sesame Csm 1b Gguf

Step Audio 2 Mini

Omnivinci

Audio Flamingo 3

Orpheus 3b 0.1 Ft GGUF

Parakeet Tdt 0.6b V2 MLX

MCP

1lc