Best 实时语音AI AI Tools & Models - Premium 实时语音AI News

AI News

AI日报：Fish Audio发布S2.1Pro实时对话语音模型；Grok4.6定档8月7日；360发布企业智能体平台“纳米Work”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、支持耳语与情绪控制!FishAudio周年重磅发布S2.1Pro实时对话语音模型FishAudio在成立周年之际推出了其最新的生产级语音大模型S2.1Pro，该模型专为实时对话语音场景打造，具有极低的延迟和高拟真度交互能力，同时支持多说话人对话生成和高质量语音克隆。该工具具有低门槛的使用方式，支持多种认证方式，并提供TypeScriptSDK接口。

15.2k 11 minutes ago

AI日报：Fish Audio发布S2.1Pro实时对话语音模型；Grok4.6定档8月7日；360发布企业智能体平台“纳米Work”

阿里Qoder上线实时语音智能体Qoder Voice，支持语音驱动AI编程

阿里AI编程助手Qoder发布语音智能体Qoder Voice，由全双工模型Qwen-Audio-3.0-Realtime驱动，支持自然语音实时创建任务、讨论方案及执行代码。在Qoder Quest模式，点击语音入口可悬浮窗任意界面唤起，指令自动创建任务并调用工具后台执行，无需等待。

15.2k 30 minutes ago

小度 AI 手表 Fit 开售：文心大模型塞进 159.8 元的腕上空间

小度AI智能手表Fit于7月27日开售，定价198元，国家补贴后仅159.8元，将百度文心大模型首次带入百元档。轻触表盘即可语音提问，能即时回应天气、穿搭、健康饮食等日常咨询，在腕上实现AI实时对话，把智能助手变得轻巧又实惠。

12.6k 6 hours ago

AI日报：豆包、千问下线AI拟人化功能；腾讯混元Hy3发布；Gemini3.5 Pro7月17日发布

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、通义千问重磅升级：实时语音识别模型Fun-ASR-Realtime正式发布通义千问大模型升级其核心音频能力，推出全新的实时语音识别模型Fun-ASR-Realtime，显著提升识别性能和语言覆盖范围，为智能语音应用提供更坚实的底层支撑。8、手机变身“数字玩伴”：JoyAI上线UGC数字人功能JoyAIApp上线UGC数字人功能，让用户能够轻松创建个性化的虚拟形象，同时通过技术集成实现了更自然的交互体验。

29k 8 hours ago

AI日报：豆包、千问下线AI拟人化功能；腾讯混元Hy3发布；Gemini3.5 Pro7月17日发布

AI Products

InterMIND

实时语音、聊天和文档翻译，支持多语言，含AI会议记录等功能。

翻译

5.6k

ViduS1 API

Vidu S1 API可构建实时互动AI数字人，支持多语言多语音，有免费试用

数字人

3.8k

Vidu S1

Vidu S1是实时互动AI头像平台，支持自定义头像、语音控制等

数字人

3.8k

Talk to Type

Windows和Mac平台语音听写与会议记录工具，有实时转录和AI摘要，14天免费试用

语音转文本

7.6k

Models

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

wan2.5-t2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-t2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

Input tokens/M

$12.7

Output tokens/M

Context Length

qwen3-tts-flash

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-tts-flash-realtime

Alibaba

Input tokens/M

Output tokens/M

Context Length

Doubao - Seedream - 4.0

Bytedance

Input tokens/M

Output tokens/M

Context Length

Doubao - Seedream - 3.0 - t2i

Bytedance

Input tokens/M

Output tokens/M

Context Length

Doubao-SeedEdit-3.0-i2i

Bytedance

Input tokens/M

Output tokens/M

Context Length

Doubao-1.5-pro-32k

Bytedance

$0.8

Input tokens/M

Output tokens/M

128

Context Length

Doubao-Seed-1.6-flash

Bytedance

$0.15

Input tokens/M

$1.5

Output tokens/M

256

Context Length

MCP

Voice Call (Twilio)

一个基于MCP协议的语音通话服务器，集成Twilio和OpenAI技术，实现AI助手发起和管理实时语音通话。

typescript

11.5k

2.5points

Popcornspace_voice Call Mcp Server

一个基于MCP协议的语音通话服务器，整合Twilio和OpenAI技术，实现AI助手发起和管理实时语音通话，支持多语言切换和预设场景模板。

typescript

11k

2.0points

Voice Call Mcp Server

基于Twilio和OpenAI的语音通话MCP服务器，实现AI助手发起和管理实时语音通话

typescript

12.2k

2.0points

Ten Agent

TEN Agent是一个多功能AI代理框架，集成了实时视觉、语音识别和屏幕共享检测能力，支持快速扩展开发。

python

11.3k

2.0points

Mcp Speaker Diarization

MCP说话人分离与识别系统是一个集成了GPU加速的说话人分离、语音识别、情感检测和Web界面的完整解决方案。它结合了pyannote.audio的说话人分离与faster-whisper转录技术，支持持久化说话人识别（一次注册，永久识别）、双检测器情感分析（结合通用AI与个性化声纹）、实时流处理、REST API和MCP服务器，专为AI智能体集成和爱好项目设计。

python

12.9k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

AI日报：Fish Audio发布S2.1Pro实时对话语音模型；Grok4.6定档8月7日；360发布企业智能体平台“纳米Work”

阿里Qoder上线实时语音智能体Qoder Voice，支持语音驱动AI编程

小度 AI 手表 Fit 开售：文心大模型塞进 159.8 元的腕上空间

AI日报：豆包、千问下线AI拟人化功能；腾讯混元Hy3发布；Gemini3.5 Pro7月17日发布

AI Products

InterMIND

ViduS1 API

Vidu S1

Talk to Type

Models

Grok 4 Fast

Claude Haiku 4.5

Gemini 2.5 Flash

Gemini 2.5 Flash-Lite

qwen-image-plus

wan2.5-i2i-preview

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

wan2.5-t2v-preview

wan2.5-t2i-preview

wan2.5-i2v-preview

qwen3-omni-flash-realtime

qwen3-omni-30b-a3b-captioner

qwen3-tts-flash

qwen3-tts-flash-realtime

Doubao - Seedream - 4.0

Doubao - Seedream - 3.0 - t2i

Doubao-SeedEdit-3.0-i2i

Doubao-1.5-pro-32k

Doubao-Seed-1.6-flash

VieNeu TTS

Thewhisper Large V3 Turbo

Thewhisper Large V3

Kani Tts 400m Es

Kani Tts 400m Ar

Kani Tts 400m En

Kani Tts 370m

Neutts Air Q8 Gguf

Neutts Air Q4 Gguf

Neutts Air

MCP

Voice Call (Twilio)

Popcornspace_voice Call Mcp Server

Voice Call Mcp Server

Ten Agent

Mcp Speaker Diarization