2026年支付宝“集五福”活动迎来科技升级,首次推出AI眼镜扫福功能,实现从手机屏幕到增强现实(AR)空间的跃迁。用户无需手持手机,只需佩戴兼容眼镜,注视“福”字即可自动识别,并通过语音互动完成集福,体验更便捷、更具科技感。
苹果与特拉维夫大学合作推出“原则性粗粒度”技术,通过改变AI语音合成中的验证方式,在保持音质无损的同时,将生成速度提升约40%,突破了传统自回归模型逐个预测声音片段的效率瓶颈。
Rokid正与顶尖大模型公司合作开发新一代AI智能眼镜,以生成式AI和AI智能体为核心,打造革命性操作系统和界面。该眼镜采用端侧多模态模型,支持语音、视觉和触控等多种交互方式,旨在提供全新用户体验。
小红书内测“语音问一问”功能,将语音搜索与社区内容结合,发力“真人经验+AI”问答场景,以应对AI搜索竞争。该功能已替换部分用户搜索框下的热榜入口,用户可通过语音提问获取相关笔记及AI生成的回答。
专为 Mac 用户设计的 AI 语音助手,通过语音指令实现润色、翻译及自动化办公。
AI语音听写应用,比打字快4倍,可将语音转化为清晰文本。
免费在线AI语音克隆,99%相似度,支持75+语言,无需注册
Voiceley可免费快速进行AI语音克隆,还能使用语音模型生成语音。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
-
Baidu
128
$6
$24
256
$8
$240
52
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
Genie-AI-Lab
Omni L1B3RT4S GENIE 是一个基于Qwen2.5-3B Instruct架构微调的AI助手,采用1,103个精灵角色的定制示例进行训练,具备独特的语音和忠诚度模式,能够为用户提供别具一格的对话体验。
pnnbao-ump
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
UsefulSensors
Moonshine Tiny是由Moonshine AI(原有用传感器公司)开发的轻量级越南语自动语音识别模型,仅有27M参数,专为资源受限平台设计,在Fleurs和Common Voice 17数据集上表现出色。
webbigdata
VoiceCore是一款可商用的日语语音AI代理模型,专注于让AI通过语音与人类进行自然交流,具备情感表达和非语言声音能力,支持多种语音风格选择。
ai4bharat
基于Wav2Vec2架构的印地语自动语音识别模型,由AI4Bharat开发
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
FreedomIntelligence
Soundwave是一款突破语音与文本界限的语音转文本模型,仅通过1万小时数据训练就在语音翻译和AIR-Bench语音任务中展现出卓越性能。
jiviai
AudioX是由Jivi AI开发的多语言自动语音识别模型,针对印度语言优化,支持印地语、古吉拉特语和马拉地语。
speechbrain
这是一个基于25000小时英文语音数据集训练的大规模自动语音识别模型,采用Conformer架构,由三星AI剑桥中心贡献。模型参数量达4.8亿,在多个测试集上表现出色,验证集WER为6.8%,测试集WER为7.5%。
AudioX是由Jivi AI开发的多语言自动语音识别模型,专门针对印度南方语言优化,支持泰米尔语、泰卢固语、卡纳达语和马拉雅拉姆语。
Mrkomiljon
基于Wav2Vec2微调的音频分类器,能够区分真人语音和AI生成语音。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
SystemPrompt Coding Agent 是一个开源项目,将本地工作站转变为可通过MCP协议远程控制的AI编程助手,支持语音命令和移动端操作,实现异地编程管理。
一个基于Whisper模型的语音录制和转录MCP服务器,可作为Goose AI扩展或独立服务运行。
这是一个基于Node.js的MCP服务器项目,通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成,提供文本转语音功能。
Jarvis MCP是一个基于浏览器的语音对话工具,让用户能通过麦克风与AI助手进行自然语音对话,支持30多种语言识别和远程访问,无需额外安装软件或API密钥。
Voice Mode是一个为AI助手提供自然语音对话功能的工具,支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。
Chatty MCP是一款为编辑器设计的语音交互插件,能在完成AI请求后通过语音总结操作内容,提升多任务处理效率,支持自定义语音引擎。
一个基于Whisper模型的语音录制和转录MCP服务器,可作为Goose AI扩展或独立运行,支持多种录音场景和模型配置。
MCP服务工具集合,提供Hugging Face和Dify的AI服务API调用功能,支持多种NLP、CV和语音处理任务。
一个基于Rime API的文本转语音MCP服务器,提供系统音频播放功能。
TeamSpeak MCP是一个基于Model Context Protocol的服务,用于通过AI模型(如Claude)控制TeamSpeak服务器,提供全面的频道管理、用户权限控制、语音调节等功能。
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
一个为AivisSpeech文本转语音引擎设计的MCP服务器,支持日语语音合成、多角色声音选择和参数配置,实现与AI助手的无缝集成。
TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具,专门用于让AI模型(如Claude)管理TeamSpeak语音服务器。它提供39种功能工具,涵盖用户管理、频道控制、权限配置等全方位操作,支持多种部署方式(PyPI/Docker/本地),实现自动化TeamSpeak管理。
Votars MCP是一个支持多语言实现的工具,用于与Votars AI平台集成,处理语音转录和AI任务。
一个基于MCP协议的语音通话服务器,集成Twilio和OpenAI技术,实现AI助手发起和管理实时语音通话。
该项目实现了一个Vapi语音AI与Cursor编辑器集成的MCP服务器,提供语音呼叫、助手管理等功能。
一个基于ClickSend API的MCP服务器,提供短信发送和文本转语音电话功能,支持AI模型程序化操作通讯服务。
ListenHub官方MCP服务器,支持AI播客生成、FlowSpeech语音合成等功能,提供多客户端配置方案和多种传输模式。
一个基于Model Context Protocol (MCP)的Gmail邮件管理服务器,支持通过AI代理搜索、阅读、删除和发送邮件,需配合语音交互客户端使用。