Best 语音模型 AI Tools & Models - Premium 语音模型 News

AI News

AI日报：DeepSeek-V4预览版正式发布；特斯拉车载语音接入豆包；美团秘密试水万亿级 AI 大模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、DeepSeek-V4预览版正式发布:1M超长上下文进入全员普惠时代DeepSeek-V4预览版正式发布，具备1M超长上下文能力，并通过结构创新和Agent生态适配，提升了推理性能和应用效率。通过对话驱动的AI知识工作台，用户能够更加便捷地进行思维导图的构建和管理，提升了工作效率和创造力。

30.7k 3 hours ago

AI日报：DeepSeek-V4预览版正式发布；特斯拉车载语音接入豆包；美团秘密试水万亿级 AI 大模型

特斯拉宣布车载语音接入豆包

特斯拉车载语音服务接入字节跳动旗下豆包大模型，由DeepSeekChat提供AI互动功能，采用双模型落地方案，推动车载AI技术本土化。此举是继2025年8月与火山引擎合作后，特斯拉在中国市场的重要更新，进一步巩固其在该活跃市场的地位。

13.8k 3 hours ago

小米发布全链路语音大模型 MiMo-V2.5，TTS 可“一句话生成新音色”，ASR 开源支持方言与多语混说

小米发布MiMo-V2.5全链路语音模型系列，包括三款TTS模型和一款开源ASR模型，覆盖语音输入与输出。TTS模型能精准调度情绪、语气和角色身份，让声音可编程、可创作、可复刻，提升人机交互自然度，开启语音智能新纪元。

16.2k 13 hours ago

特斯拉车机语音大模型在沪完成备案，智能座舱体验迎来AI升级

特斯拉在华完成车机语音大模型服务备案，将接入生成式AI，提升语音交互智能化水平，符合监管要求，为车主带来更自然的座舱体验。

11.9k 2 days ago

AI Products

OmniVoice

高质量的语音克隆 TTS 模型，支持 600 多种语言。

文本转声音

VibeVoice

开源的前沿语音 AI 模型，支持语音识别和文本转语音。

语音识别

4.9k

Voiceley

Voiceley可免费快速进行AI语音克隆，还能使用语音模型生成语音。

语音克隆

8.9k

Qwen3-TTS

先进的文本转语音模型，提供高质量的语音合成服务。

文本转声音

12.1k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

MCP

MiniMax

Verified

MiniMax官方模型上下文协议（MCP）服务器，支持文本转语音、视频/图像生成等API交互。

python

14.1k

4.0points

Mcp Hfspace

mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器，支持图像生成、语音处理、视觉模型等多种AI功能，简化了与Claude Desktop的集成。

typescript

10.5k

3.5points

Voice Recorder (Whisper)

一个基于Whisper模型的语音录制和转录MCP服务器，可作为Goose AI扩展或独立服务运行。

python

10.6k

2.5points

Mcp Video Extraction

一个基于MCP协议的视频音频文本提取服务器，支持从多平台下载视频并利用Whisper模型进行语音转文字处理

python

10.1k

2.5points

Fast Whisper MCP Server

基于Faster Whisper的高性能语音识别MCP服务器，提供高效的音频转写能力，支持批量处理、多模型尺寸和多种输出格式。

python

13.4k

2.5points

Voice Recorder Mcp Server

一个基于Whisper模型的语音录制和转录MCP服务器，可作为Goose AI扩展或独立运行，支持多种录音场景和模型配置。

python

9.7k

2.5points

Teamspeak Mcp

TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具，专门用于让AI模型（如Claude）管理TeamSpeak语音服务器。它提供39种功能工具，涵盖用户管理、频道控制、权限配置等全方位操作，支持多种部署方式（PyPI/Docker/本地），实现自动化TeamSpeak管理。

python

8.2k

2.5points