快手可灵AI推出2.6版本,实现“音画同出”功能,可一次性生成画面、语音、音效及环境氛围,提升内容创作效率。
谷歌在移动端测试“AI概览+AI模式”合并功能,用户可在搜索结果页直接展开多轮对话,无需跳转。该功能支持文本、语音和图片输入,对话长度可达传统搜索三倍,并保留引用来源与网页排名。产品副总裁表示,新设计旨在消除用户选择搜索或聊天的成本,实现连续提问与即时回复。
中兴通讯与字节跳动豆包团队合作推出“豆包手机助手”,通过nubia M153工程样机侧边独立AI键,实现无需解锁、无需App即可语音唤醒豆包大模型,支持跨平台比价、日程创建等功能。该合作推动中兴通讯股价创三年新高。
理想汽车发布AI眼镜Livis,搭载自研AI助手“理想同学”,支持语音交互、实时翻译等功能,售价1999元起。
Noiz AI提供自然流畅的语音合成服务,应用场景丰富,生成高效。
Klariqo是企业AI助手,24/7处理电话与网站聊天,自动预约、筛选线索,有免费试用。
AI驱动的语音笔记应用,可即时记录、转录和整理想法
闪电说 AI 语音输入法,比打字快 4 倍,提升创作效率。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
-
$6
$24
256
Baidu
128
$8
$240
52
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
Genie-AI-Lab
Omni L1B3RT4S GENIE 是一个基于Qwen2.5-3B Instruct架构微调的AI助手,采用1,103个精灵角色的定制示例进行训练,具备独特的语音和忠诚度模式,能够为用户提供别具一格的对话体验。
pnnbao-ump
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
UsefulSensors
Moonshine Tiny是由Moonshine AI(原有用传感器公司)开发的轻量级越南语自动语音识别模型,仅有27M参数,专为资源受限平台设计,在Fleurs和Common Voice 17数据集上表现出色。
webbigdata
VoiceCore是一款可商用的日语语音AI代理模型,专注于让AI通过语音与人类进行自然交流,具备情感表达和非语言声音能力,支持多种语音风格选择。
ai4bharat
基于Wav2Vec2架构的印地语自动语音识别模型,由AI4Bharat开发
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
FreedomIntelligence
Soundwave是一款突破语音与文本界限的语音转文本模型,仅通过1万小时数据训练就在语音翻译和AIR-Bench语音任务中展现出卓越性能。
jiviai
AudioX是由Jivi AI开发的多语言自动语音识别模型,针对印度语言优化,支持印地语、古吉拉特语和马拉地语。
speechbrain
这是一个基于25000小时英文语音数据集训练的大规模自动语音识别模型,采用Conformer架构,由三星AI剑桥中心贡献。模型参数量达4.8亿,在多个测试集上表现出色,验证集WER为6.8%,测试集WER为7.5%。
AudioX是由Jivi AI开发的多语言自动语音识别模型,专门针对印度南方语言优化,支持泰米尔语、泰卢固语、卡纳达语和马拉雅拉姆语。
Mrkomiljon
基于Wav2Vec2微调的音频分类器,能够区分真人语音和AI生成语音。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
SystemPrompt Coding Agent 是一个开源项目,将本地工作站转变为可通过MCP协议远程控制的AI编程助手,支持语音命令和移动端操作,实现异地编程管理。
一个基于Whisper模型的语音录制和转录MCP服务器,可作为Goose AI扩展或独立服务运行。
这是一个基于Node.js的MCP服务器项目,通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成,提供文本转语音功能。
Voice Mode是一个为AI助手提供自然语音对话功能的工具,支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。
MCP服务工具集合,提供Hugging Face和Dify的AI服务API调用功能,支持多种NLP、CV和语音处理任务。
一个基于Whisper模型的语音录制和转录MCP服务器,可作为Goose AI扩展或独立运行,支持多种录音场景和模型配置。
Chatty MCP是一款为编辑器设计的语音交互插件,能在完成AI请求后通过语音总结操作内容,提升多任务处理效率,支持自定义语音引擎。
TeamSpeak MCP是一个基于Model Context Protocol的服务,用于通过AI模型(如Claude)控制TeamSpeak服务器,提供全面的频道管理、用户权限控制、语音调节等功能。
Votars MCP是一个支持多语言实现的工具,用于与Votars AI平台集成,处理语音转录和AI任务。
TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具,专门用于让AI模型(如Claude)管理TeamSpeak语音服务器。它提供39种功能工具,涵盖用户管理、频道控制、权限配置等全方位操作,支持多种部署方式(PyPI/Docker/本地),实现自动化TeamSpeak管理。
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
一个为AivisSpeech文本转语音引擎设计的MCP服务器,支持日语语音合成、多角色声音选择和参数配置,实现与AI助手的无缝集成。
一个基于MCP协议的语音通话服务器,集成Twilio和OpenAI技术,实现AI助手发起和管理实时语音通话。
该项目实现了一个Vapi语音AI与Cursor编辑器集成的MCP服务器,提供语音呼叫、助手管理等功能。
一个基于ClickSend API的MCP服务器,提供短信发送和文本转语音电话功能,支持AI模型程序化操作通讯服务。
ListenHub官方MCP服务器,支持AI播客生成、FlowSpeech语音合成等功能,提供多客户端配置方案和多种传输模式。
一个基于MCP协议的AI语音呼叫系统,通过VoIP技术让Claude等AI助手能够自动拨打电话并进行智能对话,支持多种SIP协议和音频编解码器。
一个基于Model Context Protocol (MCP)的Gmail邮件管理服务器,支持通过AI代理搜索、阅读、删除和发送邮件,需配合语音交互客户端使用。
这是一个关于Model Context Protocol(MCP)生态系统的精选资源列表,涵盖了官方资源、开发工具、MCP服务器、Web集成、数据库、区块链、AI集成、语音、移动应用、开发环境、安全测试、生产力工具和系统工具等多个类别。