Best 语音到语音 AI Tools & Models - Premium 语音到语音 News

AI News

微软开源实时语音模型VibeVoice-Realtime-0.5B，300ms实时开声，90分钟长音频都不喘！

微软开源实时语音模型VibeVoice-Realtime-0.5B，具备极低延迟和接近真人的语音表现。该模型从文本输入到发声平均仅需300毫秒，远低于传统TTS模型的1-3秒，实现近乎零延迟的实时语音合成。

MOSS-Speech开源：国内首个语音到语音大模型，告别文本中介

复旦大学MOSS团队发布MOSS-Speech，首次实现端到端语音对话，模型已在Hugging Face上线并开源。采用“层拆分”架构，冻结原文本模型，新增语音理解、语义对齐和声码器层，可一次性完成语音问答、情绪模仿和笑声生成，无需传统三段式流程。评测显示，在ZeroSpeech2025任务中词错率降至4.1%，情感识别准确率达91.2%。

23.2k 3 hours ago

Hume AI语音转换功能上线，单次捕捉完美复刻你的“声音灵魂”

Hume AI推出全新“语音转换”功能，用户仅需一次录音即可将原声的节奏、发音和语调精准移植到任意目标声音，实现无缝融合与个性化表达。该功能已在创作工作室和API平台上线，标志着语音AI从机械朗读向情感共鸣的转变，开启无限创意可能。

14.9k 20 hours ago

全球首个具身智能开放平台上线！3D数字人第一次“开箱即用”：魔珐星云把大模型塞进百元芯片

魔珐科技发布全球首个3D数字人开放平台“魔珐星云”，让AI从文字对话升级为实时生成带表情、手势和身体动作的3D数字人。其核心3D多模态引擎可输入文本后毫秒级输出同步语音与动作，并适配手机、车载等多种终端，实现AI从“说话”到“表演”的进化。

10.5k 5 days ago

全球首个具身智能开放平台上线！3D数字人第一次“开箱即用”：魔珐星云把大模型塞进百元芯片

Models

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

Input tokens/M

$12.7

Output tokens/M

Context Length

qwen3-tts-flash-realtime

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-tts-flash

Alibaba

Input tokens/M

Output tokens/M

Context Length

Doubao-1.5-pro-32k

Bytedance

$0.8

Input tokens/M

Output tokens/M

128

Context Length

qwen3-asr-flash

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-tts-realtime

Alibaba

$2.4

Input tokens/M

$12

Output tokens/M

Context Length

Hunyuan-TurboS-latest

Tencent

$0.8

Input tokens/M

Output tokens/M

Context Length

Doubao-1.5-thinking-vision-pro

Bytedance

Input tokens/M

Output tokens/M

128

Context Length

qwen-tts

Alibaba

$1.6

Input tokens/M

$10

Output tokens/M

Context Length

qwen-omni-turbo

Alibaba

$1.5

Input tokens/M

$1.6

Output tokens/M

Context Length

Grok-3

Xai

$21

Input tokens/M

$105

Output tokens/M

128

Context Length

GPT-3.5 Turbo

Openai

$3.5

Input tokens/M

$10.5

Output tokens/M

Context Length

百度蒸汽机2.0

Baidu

Input tokens/M

Output tokens/M

Context Length

MCP

Mcp Assistant Playground

一个基于Streamlit的智能聊天机器人，使用GPT-4o自动路由用户请求到不同工具（如聊天、图像生成、数据库查询、语音合成等），支持快速实验AI工具路由功能。

python

8.2k

2.0points

Voice Gen Mcp

基于Minimax AI和Amazon S3的语音生成MCP服务器，提供文本转语音功能并自动上传音频文件到云端存储

python

6.9k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

微软开源实时语音模型VibeVoice-Realtime-0.5B，300ms实时开声，90分钟长音频都不喘！

MOSS-Speech开源：国内首个语音到语音大模型，告别文本中介

Hume AI语音转换功能上线，单次捕捉完美复刻你的“声音灵魂”

全球首个具身智能开放平台上线！3D数字人第一次“开箱即用”：魔珐星云把大模型塞进百元芯片

Models

qwen3-livetranslate-flaltimeash-re-2025-09-22

qwen3-omni-flash-realtime

qwen3-omni-30b-a3b-captioner

qwen3-tts-flash-realtime

qwen3-tts-flash

Doubao-1.5-pro-32k

qwen3-asr-flash

qwen-tts-realtime

Hunyuan-TurboS-latest

Doubao-1.5-thinking-vision-pro

qwen-tts

qwen-omni-turbo

Grok-3

GPT-3.5 Turbo

百度蒸汽机2.0

VoxCPM1.5

Supertonic TTS ONNX

Ming UniAudio 16B A3B

MiMo Audio 7B Base

Step Audio 2 Mini

MGM Omni TTS 2B

Qwen2.5 Omni 3B GGUF

Openaudio Gguf

Whisper Large V3 Turbo

Qwen2.5 Omni 7B GPTQ Int4

Qwen2.5 Omni 7B AWQ

VoxPolska V1 Merged 16bit

Qwen2.5 Omni 3B

Emova Qwen 2 5 3b

EpXTTS

Qwen2.5 Omni 7B

Emova Qwen 2 5 3b Hf

Emova Qwen 2 5 7b Hf

Asr Conformer Largescaleasr

Speechless Llama3.2 V0.1

MCP

Mcp Assistant Playground

Voice Gen Mcp