Best 实时语音交互 AI Tools & Models - Premium 实时语音交互 News

AI News

英伟达发布 PersonaPlex-7B-v1:重塑实时语音交互的“全双工”黑科技

英伟达发布PersonaPlex-7B-v1语音对话模型，突破传统AI语音助手“一问一答”模式，实现更自然的真人对话体验。该模型采用单一Transformer架构，直接完成语音理解与生成，无需传统ASR、LLM、TTS串联处理。

23.8k 1 hours ago

英伟达发布 PersonaPlex-7B-v1:重塑实时语音交互的“全双工”黑科技

阿里通义开源语音交互大模型Fun-Audio-Chat-8B！超低延迟，能读懂情绪

阿里巴巴开源Fun-Audio-Chat-8B语音大模型，主打超低延迟与自然交互，性能媲美GPT-4o Audio等闭源模型。它具备实时理解和情感感知能力，旨在成为真正的AI语音伙伴。

15.4k 11 hours ago

ElevenLabs打通WhatsApp！AI语音助理可接打电话、批量外呼，客服革命正式落地

ElevenLabs的AI语音智能体深度集成WhatsApp，支持文字与语音双模交互。用户可通过文字聊天或直接拨打WhatsApp语音电话，与拥有逼真人声的AI助理实时对话。企业可便捷部署具备多语言、情感识别、实时翻译等能力的AI语音助手，重构客服体验。

12.2k 13 hours ago

xAI重磅发布Grok Voice Agent API：每分钟仅0.05美元，音频推理基准登顶第一！

xAI推出Grok Voice Agent API，向全球开发者开放实时语音交互能力。该API基于成熟的语音技术栈，已在特斯拉车辆和移动应用中广泛应用。其最大亮点是极致性价比，每分钟连接费用仅0.05美元，显著低于市场主流竞品，助力开发者低成本构建高性能语音应用。

14.7k 4 hours ago

AI Products

ZEGOCLOUD

提供语音、视频和聊天API，用于实时交互，加速应用增长。

开发平台

7.1k

SpeechGPT 2.0-preview

首个面向语境智能的人类级实时交互系统，支持多情感、多风格语音交互。

语音转文本

9.9k

VITA-1.5

VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型

AI模型

9.6k

VideoChat

实时语音交互数字人，支持端到端语音方案

聊天机器人

13.4k

Models

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

Input tokens/M

$12.7

Output tokens/M

Context Length

qwen3-tts-flash

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-tts-flash-realtime

Alibaba

Input tokens/M

Output tokens/M

Context Length

Doubao-1.5-pro-32k

Bytedance

$0.8

Input tokens/M

Output tokens/M

128

Context Length

Doubao-Seed-1.6-flash

Bytedance

$0.15

Input tokens/M

$1.5

Output tokens/M

256

Context Length

qwen3-asr-flash

Alibaba

Input tokens/M

Output tokens/M

Context Length

百度蒸汽机2.0音视一体

Baidu

Input tokens/M

Output tokens/M

Context Length

GPT-5 nano

Openai

$0.35

Input tokens/M

$2.8

Output tokens/M

400

Context Length

qwen-tts-realtime

Alibaba

$2.4

Input tokens/M

$12

Output tokens/M

Context Length

Hunyuan-TurboS-latest

Tencent

$0.8

Input tokens/M

Output tokens/M

Context Length

Doubao-1.5-thinking-vision-pro

Bytedance

Input tokens/M

Output tokens/M

128

Context Length

Gemma 3n E2B

Google

Input tokens/M

Output tokens/M

Context Length

qwen-tts

Alibaba

$1.6

Input tokens/M

$10

Output tokens/M

Context Length

Gemma 3n E4B Instructed LiteRT Preview

Google

Input tokens/M

Output tokens/M

Context Length

qwen-omni-turbo-realtime

Alibaba

Input tokens/M

$6.4

Output tokens/M

Context Length

MCP

Speech Mcp

Speech MCP是为Goose设计的语音交互扩展，提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面，支持多角色对话生成和音频转录功能。

python

10.4k

2.5points

Voice Mcp

一个支持与Claude等LLM进行语音交互的MCP服务器，只需OpenAI API密钥和麦克风/扬声器即可实现实时语音对话。

python

8.9k

2.5points

Speech Interface (Faster Whisper)

Speech MCP 是一个为Goose设计的语音交互扩展，提供实时语音识别、文本转语音和音频可视化功能。

python

5.5k

2.5points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

英伟达发布 PersonaPlex-7B-v1:重塑实时语音交互的“全双工”黑科技

阿里通义开源语音交互大模型Fun-Audio-Chat-8B！超低延迟，能读懂情绪

ElevenLabs打通WhatsApp！AI语音助理可接打电话、批量外呼，客服革命正式落地

xAI重磅发布Grok Voice Agent API：每分钟仅0.05美元，音频推理基准登顶第一！

AI Products

ZEGOCLOUD

SpeechGPT 2.0-preview

VITA-1.5

VideoChat

Models

Claude Haiku 4.5

Gemini 2.5 Flash

Gemini 2.5 Flash-Lite

qwen3-livetranslate-flaltimeash-re-2025-09-22

qwen3-omni-flash-realtime

qwen3-omni-30b-a3b-captioner

qwen3-tts-flash

qwen3-tts-flash-realtime

Doubao-1.5-pro-32k

Doubao-Seed-1.6-flash

qwen3-asr-flash

百度蒸汽机2.0音视一体

GPT-5 nano

qwen-tts-realtime

Hunyuan-TurboS-latest

Doubao-1.5-thinking-vision-pro

Gemma 3n E2B

qwen-tts

Gemma 3n E4B Instructed LiteRT Preview

qwen-omni-turbo-realtime

Voila Autonomous Preview

Voila Audio Alpha

VITA 1.5

MCP

Speech Mcp

Voice Mcp

Speech Interface (Faster Whisper)