中兴通讯与字节跳动豆包团队合作推出“豆包手机助手”,通过nubia M153工程样机侧边独立AI键,实现无需解锁、无需App即可语音唤醒豆包大模型,支持跨平台比价、日程创建等功能。该合作推动中兴通讯股价创三年新高。
快手旗下可灵AI推出首个“音画同出”模型可灵2.6,能同时生成画面、语音、音效和环境氛围,打通音画世界。该模型提供“文生音画”和“图生音画”两种创作路径,用户可通过一句话或图片快速生成完整视频,提升创作体验。
法国AI语音初创公司Gradium完成7000万美元种子轮融资,创欧洲语音AI领域纪录。公司源自法国非营利AI实验室Kyutai,主打毫秒级响应的音频语言模型,首发音区。
三星计划在Galaxy S26系列中整合Perplexity AI技术至语音助手Bixby,类似苹果升级Siri的多模型AI策略。爆料显示新版Bixby仍处理本地简单任务,如设备调节,体现三星加强AI领域布局。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
使用低延迟语音识别和合成模型与 AI 对话。
一款基于StyleTTS 2架构的先进AI文本转语音模型,拥有8200万参数,提供高质量的自然语音合成。
PlayDialog,打造流畅、富有情感的对话体验。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
pnnbao-ump
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
UsefulSensors
Moonshine Tiny是由Moonshine AI(原有用传感器公司)开发的轻量级越南语自动语音识别模型,仅有27M参数,专为资源受限平台设计,在Fleurs和Common Voice 17数据集上表现出色。
webbigdata
VoiceCore是一款可商用的日语语音AI代理模型,专注于让AI通过语音与人类进行自然交流,具备情感表达和非语言声音能力,支持多种语音风格选择。
ai4bharat
基于Wav2Vec2架构的印地语自动语音识别模型,由AI4Bharat开发
FreedomIntelligence
Soundwave是一款突破语音与文本界限的语音转文本模型,仅通过1万小时数据训练就在语音翻译和AIR-Bench语音任务中展现出卓越性能。
jiviai
AudioX是由Jivi AI开发的多语言自动语音识别模型,针对印度语言优化,支持印地语、古吉拉特语和马拉地语。
speechbrain
这是一个基于25000小时英文语音数据集训练的大规模自动语音识别模型,采用Conformer架构,由三星AI剑桥中心贡献。模型参数量达4.8亿,在多个测试集上表现出色,验证集WER为6.8%,测试集WER为7.5%。
AudioX是由Jivi AI开发的多语言自动语音识别模型,专门针对印度南方语言优化,支持泰米尔语、泰卢固语、卡纳达语和马拉雅拉姆语。
AiLab-IMCS-UL
基于whisper-large-v3微调的拉脱维亚语自动语音识别模型,由AiLab.lv训练,支持拉脱维亚语语音转文本任务。
Paranchai
基于 airesearch/wav2vec2-large-xlsr-53-th 微调的语音情感识别模型,在评估集上达到85.79%准确率
基于airesearch/wav2vec2-large-xlsr-53-th微调的泰语语音情感识别模型,支持愤怒、快乐、平静三种情感分类
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
一个基于Whisper模型的语音录制和转录MCP服务器,可作为Goose AI扩展或独立服务运行。
一个基于Whisper模型的语音录制和转录MCP服务器,可作为Goose AI扩展或独立运行,支持多种录音场景和模型配置。
TeamSpeak MCP是一个基于Model Context Protocol的服务,用于通过AI模型(如Claude)控制TeamSpeak服务器,提供全面的频道管理、用户权限控制、语音调节等功能。
TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具,专门用于让AI模型(如Claude)管理TeamSpeak语音服务器。它提供39种功能工具,涵盖用户管理、频道控制、权限配置等全方位操作,支持多种部署方式(PyPI/Docker/本地),实现自动化TeamSpeak管理。
一个基于ClickSend API的MCP服务器,提供短信发送和文本转语音电话功能,支持AI模型程序化操作通讯服务。
基于大模型的智能对话机器人项目,支持多平台接入和多种AI模型,具备文本、语音、图像处理及插件扩展能力,可定制企业AI应用。
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
MCP-hfspace是一个简化连接Hugging Face Spaces的服务器工具,支持图像生成、语音处理、视觉模型等多种AI功能,与Claude Desktop无缝集成。
ExotelMCP是一个模型上下文协议(MCP)服务器,提供Claude AI与Exotel通信API的无缝集成,支持短信、语音通话和快速音频工具服务。