最好的语音功能 AI工具模型_精选语音功能资讯

AI资讯

支付宝首次上线AI眼镜扫福目光注视就能集福

2026年支付宝“集五福”活动迎来科技升级，首次推出AI眼镜扫福功能，实现从手机屏幕到增强现实（AR）空间的跃迁。用户无需手持手机，只需佩戴兼容眼镜，注视“福”字即可自动识别，并通过语音互动完成集福，体验更便捷、更具科技感。

9.7k 5 小时前

蚂蚁阿福升级“长辈模式”：超大字体，还可直接打电话咨询

蚂蚁阿福App升级推出“长辈模式”，界面字体图标更大，默认语音交互，支持直接电话咨询健康问题。同时保留多方言提问功能，并新增三种数字人形象自定义选项，未来将提供更多选择。

10.5k 2 小时前

小红书内测“语音问一问”：真人经验+AI，打造社区搜索新样态

小红书内测“语音问一问”功能，将语音搜索与社区内容结合，发力“真人经验+AI”问答场景，以应对AI搜索竞争。该功能已替换部分用户搜索框下的热榜入口，用户可通过语音提问获取相关笔记及AI生成的回答。

18.7k 2 小时前

Google 地图深度集成 Gemini：步行与骑行开启“语音领航”时代

2026年1月30日，Google地图上线基于Gemini助手的步行与骑行导航功能，将AI语音交互从驾车场景扩展至非机动出行。该功能旨在提供全程免操作的“副驾驶”式即时语音协助，用户可通过语音实时查询位置、路况等信息，解决步行骑行时不便查看手机的问题。

9.8k 3 小时前

AI产品

Emra / Always on Transcription and PTT

始终在线的语音工具包，支持语音输入、会议总结等功能

语音转文本

7.5k

Artta AI

一体化AI创意平台，集视频、图像、音乐、语音合成等功能于一体。

AI设计工具

6.8k

Levelr

Levelr提供AI音频修复、母带处理、语音隔离与增强等功能。

音频生成

5.2k

Rekam AI

免费的一体化AI语音创作平台，支持文本转语音等功能

文本转声音

5.1k

模型

o3-mini

Openai

$7.7

输入tokens/百万

$30.8

输出tokens/百万

200

上下文长度

wan2.5-i2i-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

输入tokens/百万

$240

输出tokens/百万

上下文长度

wan2.5-t2v-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen3-omni-flash-realtime

Alibaba

$3.9

输入tokens/百万

$15.2

输出tokens/百万

上下文长度

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

输入tokens/百万

$12.7

输出tokens/百万

上下文长度

qwen3-tts-flash

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen3-tts-flash-realtime

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

Doubao-1.5-pro-32k

Bytedance

$0.8

输入tokens/百万

输出tokens/百万

128

上下文长度

qwen3-asr-flash

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen-mt-image

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

百度蒸汽机2.0音视一体

Baidu

输入tokens/百万

输出tokens/百万

上下文长度

腾讯混元生视频

Tencent

输入tokens/百万

输出tokens/百万

上下文长度

qwen-mt-turbo

Alibaba

$0.7

输入tokens/百万

$1.95

输出tokens/百万

上下文长度

Hunyuan-TurboS-latest

Tencent

$0.8

输入tokens/百万

输出tokens/百万

上下文长度

qwen-tts-realtime

Alibaba

$2.4

输入tokens/百万

$12

输出tokens/百万

上下文长度

Doubao-1.5-thinking-vision-pro

Bytedance

输入tokens/百万

输出tokens/百万

128

上下文长度

qwen-tts

Alibaba

$1.6

输入tokens/百万

$10

输出tokens/百万

上下文长度

QianfanHuijin-8B

Baidu

输入tokens/百万

输出tokens/百万

上下文长度

Pangu-AgentExpert-N1-0.0.2

Huawei

输入tokens/百万

输出tokens/百万

上下文长度

MCP

Mcp Hfspace

mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器，支持图像生成、语音处理、视觉模型等多种AI功能，简化了与Claude Desktop的集成。

typescript

7.4k

3.5分

MiniMax MCP

MiniMax-MCP是一个多功能服务器项目，提供文本转语音、视频生成和图像生成等API服务，支持开发者集成高级多媒体功能。

python

2.5分

Bouyomichan Mcp Nodejs

这是一个基于Node.js的MCP服务器项目，通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成，提供文本转语音功能。

javascript

10k

2.5分

Speech Mcp

Speech MCP是为Goose设计的语音交互扩展，提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面，支持多角色对话生成和音频转录功能。

python

9.4k

2.5分

Zonos TTS

Zonos TTS与Claude的MCP集成项目，实现文本转语音功能。

typescript

8.3k

2.5分

Voicemode

Voice Mode是一个为AI助手提供自然语音对话功能的工具，支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。

python

8.9k

2.5分

Rime Text To Speech

一个基于Rime API的文本转语音MCP服务器，提供系统音频播放功能。

typescript

10.4k

2.5分

Mcp Lwh

MCP服务工具集合，提供Hugging Face和Dify的AI服务API调用功能，支持多种NLP、CV和语音处理任务。

typescript

10.4k

2.5分

Mcp Audio

mcp-audio是一个符合AIO-2030标准的MCP插件，提供语音转文字功能，支持多种音频格式和API调用方式。

python

8.8k

2.5分

Chatterbox Mcp

一个基于Chatterbox TTS模型的简化MCP服务器，提供文本转语音生成及自动播放功能，支持实时进度通知和自动模型加载。

python

6.8k

2.5分

Teamspeak Mcp

TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具，专门用于让AI模型（如Claude）管理TeamSpeak语音服务器。它提供39种功能工具，涵盖用户管理、频道控制、权限配置等全方位操作，支持多种部署方式（PyPI/Docker/本地），实现自动化TeamSpeak管理。

python

8.5k

2.5分