Best 音频生成 AI Tools & Models - Premium 音频生成 News

3.7k

ReelMuse

ReelMuse.ai是一体化AI平台，可生成视频、图像和音频等。

5.2k

Wan 2.6 AI

15秒720p/1080p AI视频生成器，多镜头叙事，音频同步，角色一致

5.9k

Kling 2.6 AI Studio

Kling 2.6 Studio：AI文本转视频，支持原生音频，稳定生成高质量视频。

3.7k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Input tokens/M

Output tokens/M

256

Context Length

MCP

MaxMSP MCP Server

该项目通过Model Context Protocol（MCP）让大型语言模型直接理解和生成Max音频处理软件中的音效模块，支持解释、修改和创建音效模块，并提供与LLM的交互界面。

10.1k

Strudel Mcp Server

一个生产就绪的MCP服务器，通过Strudel.cc实现AI驱动的音乐生成，提供完整的浏览器自动化控制、实时音频分析和模式生成功能

MCPollinations

MCPollinations是一个基于Model Context Protocol（MCP）的多模态AI服务，支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务，兼容多种AI模型，并支持图像保存和Base64编码返回。

8.9k

Speech Mcp

Speech MCP是为Goose设计的语音交互扩展，提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面，支持多角色对话生成和音频转录功能。

10.4k

Pollinations Multimodal

一个基于Pollinations API的多模态MCP服务器，支持生成图像、文本和音频内容

9.6k

Mcp Tts Server

基于MCP协议的文本转语音服务器项目，通过Groq API实现语音合成功能，支持多种音频格式输出。

9.5k

Mcp Tts Voicevox

VOICEVOX语音合成的MCP服务器，提供队列管理和预加载功能，支持文本转语音和音频文件生成。

10.4k

Mcp Koko Tts

一个基于MCP协议的文本转语音服务器，提供文本转MP3音频功能

8.5k

Mcp Fish Audio Server

Fish Audio MCP服务器是一个提供文本转语音服务的中间件，通过Model Context Protocol实现与Claude等LLM的无缝集成，支持多语言、多音色和实时流式音频生成。

8.3k

Bobtista_luma Ai Mcp Server

Luma AI MCP服务器是一个基于Model Context Protocol的服务，集成了Luma AI的Dream Machine API(v1)，提供AI生成视频/图像的工具集，包括文本/图像转视频、视频扩展、音频添加、画质提升等功能，支持通过Claude Desktop直接调用。

8.6k

MCP_Server_Practice

一个基于FastAPI和FastMCP的模块化服务器，集成了数学工具、天气API、网页搜索、音频生成及外部API调用功能，支持AI工具调用和资源路由。

8.9k

Voice Gen Mcp

基于Minimax AI和Amazon S3的语音生成MCP服务器，提供文本转语音功能并自动上传音频文件到云端存储