最好的语音模型 AI工具模型_精选语音模型资讯

AI资讯

AI日报：蚂蚁开源大模型Ming-flash-omni 2.0；智谱GLM-5意外泄露；京东正式入局AI支付

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、蚂蚁集团开源全模态大模型Ming-flash-omni2.0：多模态理解、图像编辑与语音生成全面提升蚂蚁集团开源全模态大模型Ming-flash-omni2.0，在多项公开基准测试中表现优异，成为开源全模态大模型性能新标杆。用户现在可以指定数据源抓取，并在生成报告过程中实时干预，同时支持多种格式下载。

20.4k 17 分钟前

AI日报：蚂蚁开源大模型Ming-flash-omni 2.0；智谱GLM-5意外泄露；京东正式入局AI支付

主打极致低延迟！Mistral 推出全新语音转文字 AI 模型

法国AI公司Mistral AI发布两款语音转文字模型Voxtral Mini Transcribe V2和Voxtral Realtime，主打高速转录、隐私保护和性价比。模型具备高精度转录、说话人识别和低延迟特性，适用于虚拟助手、呼叫中心及合规记录等商业场景。

11k 2 小时前

京东正式入局 AI 支付！推出“京东 AI 付”：动动嘴就能买，支付安全再加码

京东科技推出“京东 AI 付”，基于自研JoyAI大模型，实现语音支付，支持“所见即所购”。该功能已在JoyAI App和智能眼镜JoyGlance上线，推动AI与零售场景融合，重构交易体验。

12k 1 天前

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0，在视觉语言理解、语音生成、图像处理等多项基准测试中表现优异，部分指标超越Gemini2.5Pro。该模型首创全场景音频统一生成能力，支持在同一条音轨中生成语音、音效和音乐，用户通过自然语言指令即可调整音色、语速等参数。

16.1k 5 小时前

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

AI产品

Voiceley

Voiceley可免费快速进行AI语音克隆，还能使用语音模型生成语音。

语音克隆

7.6k

Qwen3-TTS

先进的文本转语音模型，提供高质量的语音合成服务。

文本转声音

10.6k

Hathora

提供语音AI的ASR、TTS和LLM模型，可测试部署用于实时应用。

开发平台

7.9k

MOSS-TTSD

一款支持中英文的对话语音合成模型。

文本转声音

11.6k

模型

GPT-4.1 mini

Openai

$2.8

输入tokens/百万

$11.2

输出tokens/百万

上下文长度

Gemini 2.0 Flash-Lite

Google

$0.49

输入tokens/百万

$2.1

输出tokens/百万

上下文长度

Grok 4 Fast

Xai

$1.4

输入tokens/百万

$3.5

输出tokens/百万

上下文长度

o3-mini

Openai

$7.7

输入tokens/百万

$30.8

输出tokens/百万

200

上下文长度

GPT-5 Codex

Openai

输入tokens/百万

输出tokens/百万

上下文长度

Claude 3 Opus

Anthropic

$105

输入tokens/百万

$525

输出tokens/百万

200

上下文长度

Gemini 2.0 Flash

Google

$0.7

输入tokens/百万

$2.8

输出tokens/百万

上下文长度

Claude Haiku 4.5

Anthropic

输入tokens/百万

$35

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash

Google

$2.1

输入tokens/百万

$17.5

输出tokens/百万

上下文长度

Claude Sonnet 4.5

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Claude 3 Sonnet

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash-Lite

Google

$0.7

输入tokens/百万

$2.8

输出tokens/百万

上下文长度

qwen-image-plus

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen3-coder-plus

Alibaba

输入tokens/百万

$16

输出tokens/百万

上下文长度

qwen3-vl-plus

Alibaba

输入tokens/百万

$10

输出tokens/百万

256

上下文长度

wan2.5-i2i-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen3-vl-235b-a22b-thinking

Alibaba

输入tokens/百万

$20

输出tokens/百万

上下文长度

Qianfan-Lightning

Baidu

输入tokens/百万

输出tokens/百万

128

上下文长度

qwen3-max

Alibaba

输入tokens/百万

$24

输出tokens/百万

256

上下文长度

qwen-image-edit

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

MCP

MiniMax

已认证

MiniMax官方模型上下文协议（MCP）服务器，支持文本转语音、视频/图像生成等API交互。

python

12.9k

4.0分

Mcp Hfspace

mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器，支持图像生成、语音处理、视觉模型等多种AI功能，简化了与Claude Desktop的集成。

typescript

7.5k

3.5分

Voice Recorder (Whisper)

一个基于Whisper模型的语音录制和转录MCP服务器，可作为Goose AI扩展或独立服务运行。

python

9.4k

2.5分

Fast Whisper MCP Server

基于Faster Whisper的高性能语音识别MCP服务器，提供高效的音频转写能力，支持批量处理、多模型尺寸和多种输出格式。

python

11.7k

2.5分

Mcp Video Extraction

一个基于MCP协议的视频音频文本提取服务器，支持从多平台下载视频并利用Whisper模型进行语音转文字处理

python

9.6k

2.5分

Voice Recorder Mcp Server

一个基于Whisper模型的语音录制和转录MCP服务器，可作为Goose AI扩展或独立运行，支持多种录音场景和模型配置。

python

10.6k

2.5分

Chatterbox Mcp

一个基于Chatterbox TTS模型的简化MCP服务器，提供文本转语音生成及自动播放功能，支持实时进度通知和自动模型加载。

python

6.8k

2.5分

Teamspeak Mcp

TeamSpeak MCP是一个基于Model Context Protocol的服务，用于通过AI模型（如Claude）控制TeamSpeak服务器，提供全面的频道管理、用户权限控制、语音调节等功能。

python

6.4k

2.5分

Teamspeak Mcp

TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具，专门用于让AI模型（如Claude）管理TeamSpeak语音服务器。它提供39种功能工具，涵盖用户管理、频道控制、权限配置等全方位操作，支持多种部署方式（PyPI/Docker/本地），实现自动化TeamSpeak管理。

python

7.5k

2.5分