Best 语音生成模型 AI Tools & Models - Premium 语音生成模型 News

AI News

通义实验室发布语音双模型:Fun-CosyVoice3.5与Fun-AudioGen-VD上线

通义实验室发布Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音大模型，支持“FreeStyle”自然语言指令生成，实现“一句话自由生成语音”的深度交互。Fun-CosyVoice3.5新增泰语、印尼语等4个语种支持，提升多语种复刻与精细化表达能力。

10.1k 8 minutes ago

通义实验室发布语音双模型:Fun-CosyVoice3.5与Fun-AudioGen-VD上线

一句话即刻“调教”音色！阿里通义发布语音双模型：支持 FreeStyle 自然语言控制

阿里通义实验室推出Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音生成模型，支持“FreeStyle”指令，用户通过自然语言描述即可控制声音风格或构建音频场景。Fun-CosyVoice3.5专注于多语种复刻与精细化控制，是CosyVoice的升级版。

9.7k 28 minutes ago

一句话即刻“调教”音色！阿里通义发布语音双模型：支持 FreeStyle 自然语言控制

AI日报：蚂蚁开源大模型Ming-flash-omni 2.0；智谱GLM-5意外泄露；京东正式入局AI支付

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、蚂蚁集团开源全模态大模型Ming-flash-omni2.0：多模态理解、图像编辑与语音生成全面提升蚂蚁集团开源全模态大模型Ming-flash-omni2.0，在多项公开基准测试中表现优异，成为开源全模态大模型性能新标杆。用户现在可以指定数据源抓取，并在生成报告过程中实时干预，同时支持多种格式下载。

26.5k 2 hours ago

AI日报：蚂蚁开源大模型Ming-flash-omni 2.0；智谱GLM-5意外泄露；京东正式入局AI支付

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0，在视觉语言理解、语音生成、图像处理等多项基准测试中表现优异，部分指标超越Gemini2.5Pro。该模型首创全场景音频统一生成能力，支持在同一条音轨中生成语音、音效和音乐，用户通过自然语言指令即可调整音色、语速等参数。

17.4k 13 hours ago

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

AI Products

Voiceley

Voiceley

Voiceley可免费快速进行AI语音克隆，还能使用语音模型生成语音。

CSM 1B

CSM 1B

CSM 1B 是一个由 Sesame 开发的文本到语音生成模型，可生成高质量的音频。

Sesame CSM

Sesame CSM

一个用于生成对话式语音的模型，支持从文本和音频输入生成高质量的语音。

Octave TTS

Octave TTS

Octave TTS 是首个能够理解文本含义的语音合成模型，能够生成富有情感和风格的语音。

文本转声音

Models

GPT-4.1 mini

Openai

GPT-4.1 mini

$2.8

Input tokens/M

$11.2

Output tokens/M

1k

Context Length

Gemini 2.0 Flash-Lite

Google

Gemini 2.0 Flash-Lite

$0.49

Input tokens/M

$2.1

Output tokens/M

1k

Context Length

Grok 4 Fast

Xai

Grok 4 Fast

$1.4

Input tokens/M

$3.5

Output tokens/M

2k

Context Length

o3-mini

Openai

o3-mini

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

GPT-5 Codex

-

Input tokens/M

-

Output tokens/M

-

Context Length

Claude 3 Opus

Anthropic

Claude 3 Opus

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

Gemini 2.0 Flash

$0.7

Input tokens/M

$2.8

Output tokens/M

1k

Context Length

Claude Haiku 4.5

Anthropic

Claude Haiku 4.5

$7

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

Gemini 2.5 Flash

$2.1

Input tokens/M

$17.5

Output tokens/M

1k

Context Length

Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

Claude 3 Sonnet

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

Gemini 2.5 Flash-Lite

$0.7

Input tokens/M

$2.8

Output tokens/M

1k

Context Length

qwen-image-plus

Alibaba

qwen-image-plus

-

Input tokens/M

-

Output tokens/M

-

Context Length

qwen3-coder-plus

Alibaba

qwen3-coder-plus

$4

Input tokens/M

$16

Output tokens/M

1k

Context Length

qwen3-vl-plus

Alibaba

qwen3-vl-plus

$1

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

qwen3-vl-235b-a22b-thinking

$2

Input tokens/M

$20

Output tokens/M

-

Context Length

wan2.5-i2i-preview

Alibaba

wan2.5-i2i-preview

-

Input tokens/M

-

Output tokens/M

-

Context Length

Qianfan-Lightning

Baidu

Qianfan-Lightning

-

Input tokens/M

-

Output tokens/M

128

Context Length

qwen3-max

Alibaba

qwen3-max

$6

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen-image-edit

Alibaba

qwen-image-edit

-

Input tokens/M

-

Output tokens/M

-

Context Length

MCP

MiniMax

MiniMax

MiniMax官方模型上下文协议（MCP）服务器，支持文本转语音、视频/图像生成等API交互。

mcp-hfspace

Mcp Hfspace

mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器，支持图像生成、语音处理、视觉模型等多种AI功能，简化了与Claude Desktop的集成。

chatterbox-mcp

Chatterbox Mcp

一个基于Chatterbox TTS模型的简化MCP服务器，提供文本转语音生成及自动播放功能，支持实时进度通知和自动模型加载。

groq-mcp-server

Groq Mcp Server

Groq MCP Server是一个通过Model Context Protocol（MCP）提供快速模型推理的服务，支持文本生成、语音转换、图像分析和批量处理等多种功能。

MiniMax-MCP-JS

MiniMax MCP JS

MiniMax MCP JS是一个JavaScript/TypeScript实现的MiniMax模型上下文协议工具包，提供文本转语音、图像生成、视频生成和语音克隆等功能，支持多种配置方式和传输模式。

Hugging Face Spaces

Hugging Face Spaces

MCP-hfspace是一个简化连接Hugging Face Spaces的服务器工具，支持图像生成、语音处理、视觉模型等多种AI功能，与Claude Desktop无缝集成。

AIBase

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

Business Cooperation Site Map