Best 语音AI AI Tools & Models - Premium 语音AI News

AI News

OPPO与支付宝实现智能体跨端互联，一句话调用阿宝200项办事技能

7月15日，支付宝宣布与OPPO合作，AI智能体阿宝与小布实现双向联动。标志端侧AI助手与支付宝服务生态深度融合。OPPO用户无需打开支付宝，通过小布语音即可向阿宝派发任务，缩短交互链路。首期合作接入近200项生活服务，覆盖观影、点餐、出行等场景。

15.8k 12 minutes ago

Soul将推首款便携式AI智能硬件，自研SoulX大模型加速软硬一体布局

社交平台Soul计划推出首款便携AI硬件，定位情绪陪伴，融合自研大模型SoulX，提供语音、情感与数字生命交互。用户可通过已上线应用“愈见岛—星频通讯”绑定设备，创建虚拟智能体，实现全双工对话与表情同步展示。这标志着Soul正从社交软件向硬件生态延伸。

10.2k 15 minutes ago

Hinge创始人筹资1800万美元，推出全新AI语音约会服务Overtone

Hinge创始人Justin McLeod为其新公司Overtone筹得1800万美元，投资方包括FirstMark Capital、Pace Capital及Match Group。McLeod已于去年卸任Hinge CEO，他强调Overtone并非约会应用，而是一项以人工智能驱动的语音音频服务。

6.1k 25 minutes ago

全双工实时语音上线，ChatGPT彻底告别“对讲机”时代

OpenAI发布基于GPT-Live架构的全新语音交互，将AI助手从对讲机式沟通转向全双工真人对话。相比2024年的高级语音模式，新模型实现聆听、发言与思考的并行处理，彻底脱离传统语音技术束缚。

15.4k 3 hours ago

AI Products

InterMIND

实时语音、聊天和文档翻译，支持多语言，含AI会议记录等功能。

翻译

5.5k

ViduS1 API

Vidu S1 API可构建实时互动AI数字人，支持多语言多语音，有免费试用

数字人

4.4k

Vidu S1

Vidu S1是实时互动AI头像平台，支持自定义头像、语音控制等

数字人

3.4k

MachinesFluent

Windows系统级AI语音听写、文本与图像处理软件，免费使用。

效率工具

5.4k

Models

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Input tokens/M

Output tokens/M

256

Context Length

wan2.5-t2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-t2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

MCP

Mcp Hfspace

mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器，支持图像生成、语音处理、视觉模型等多种AI功能，简化了与Claude Desktop的集成。

typescript

12.2k

3.5points

Voice Recorder (Whisper)

一个基于Whisper模型的语音录制和转录MCP服务器，可作为Goose AI扩展或独立服务运行。

python

11.4k

2.5points

Systemprompt Code Orchestrator

SystemPrompt Coding Agent 是一个开源项目，将本地工作站转变为可通过MCP协议远程控制的AI编程助手，支持语音命令和移动端操作，实现异地编程管理。

typescript

10.3k

2.5points

Bouyomichan Mcp Nodejs

这是一个基于Node.js的MCP服务器项目，通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成，提供文本转语音功能。

javascript

10.8k

2.5points

Jarvis Mcp

Jarvis MCP是一个基于浏览器的语音对话工具，让用户能通过麦克风与AI助手进行自然语音对话，支持30多种语言识别和远程访问，无需额外安装软件或API密钥。

typescript

9.9k

2.5points

Voicemode

Voice Mode是一个为AI助手提供自然语音对话功能的工具，支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。

python

11.8k

2.5points

Chatty Mcp

Chatty MCP是一款为编辑器设计的语音交互插件，能在完成AI请求后通过语音总结操作内容，提升多任务处理效率，支持自定义语音引擎。

typescript

9.6k

2.5points

Mcp Lwh

MCP服务工具集合，提供Hugging Face和Dify的AI服务API调用功能，支持多种NLP、CV和语音处理任务。

typescript

11k

2.5points

Voice Recorder Mcp Server

一个基于Whisper模型的语音录制和转录MCP服务器，可作为Goose AI扩展或独立运行，支持多种录音场景和模型配置。

python

11.7k

2.5points

Mcp Simple Aivisspeech

一个为AivisSpeech文本转语音引擎设计的MCP服务器，支持日语语音合成、多角色声音选择和参数配置，实现与AI助手的无缝集成。

typescript

6.6k

2.5points

Votars

Votars MCP是一个支持多语言实现的工具，用于与Votars AI平台集成，处理语音转录和AI任务。

11.3k

2.5points

Teamspeak Mcp

TeamSpeak MCP是一个基于Model Context Protocol的服务，用于通过AI模型（如Claude）控制TeamSpeak服务器，提供全面的频道管理、用户权限控制、语音调节等功能。

python

8.7k

2.5points

Mcp Audio

mcp-audio是一个符合AIO-2030标准的MCP插件，提供语音转文字功能，支持多种音频格式和API调用方式。

python

10k

2.5points

Teamspeak Mcp

TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具，专门用于让AI模型（如Claude）管理TeamSpeak语音服务器。它提供39种功能工具，涵盖用户管理、频道控制、权限配置等全方位操作，支持多种部署方式（PyPI/Docker/本地），实现自动化TeamSpeak管理。

python

10.7k

2.5points