苹果与谷歌达成合作,每年支付约10亿美元获得Gemini大模型使用权,计划2026年春季随iOS26.4推出升级版Siri。此举旨在弥补苹果自研大模型不足,重夺智能语音主导权。新Siri将基于1.2万亿参数的Gemini2.5Pro,性能远超当前版本。
美团开源多模态大模型LongCat-Flash-Omni实现技术突破,在多项基准测试中超越闭源竞品,达到业界领先水平。该模型支持文本、语音、图像、视频的实时融合处理,具备近乎零延迟的交互能力,将本地化多模态AI应用推向新高度。
美团正式发布自研LongCat大模型官方App,支持安卓和iOS系统下载。该应用具备联网搜索、语音通话功能,未来还将加入视频通话。通过文本处理和多模态理解技术,帮助用户高效获取信息,体现美团在人工智能领域的重要进展。
2025年前三季度中国智能音箱销量达1054万台,全年或冲击1420万台。但行业面临关键挑战:仅33%设备搭载AI大模型,近七成仍停留基础语音交互,智能化普及不足。高端市场由“超级小爱”引爆,大模型成为新卖点。
Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。
一个用于生成播客及其他音频文件转录文本的工具,支持多种语言模型和语音识别API。
百聆是一个类似GPT-4o的语音对话机器人,通过ASR+LLM+TTS实现,低配置也可运行,支持打断。
MinMo是一款多模态大型语言模型,用于无缝语音交互。
nineninesix
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS Pretrain v0.3是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用优化,采用两阶段管道架构,结合大语言模型和高效音频编解码器,实现极低延迟和高品质语音合成。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
KaniTTS是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用而优化。该模型采用两阶段处理流程,结合大语言模型和高效音频编解码器,在Nvidia RTX 5080上生成15秒音频的延迟仅需约1秒,MOS自然度评分达4.3/5,支持英语、中文、日语等多种语言。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
XiaomiMiMo
MiMo Audio是小米开发的音频语言模型,通过大规模预训练展现出强大的少样本学习能力。该模型突破了传统模型依赖特定任务微调的局限,在语音智能、音频理解等任务中表现出色,在开源模型中达到先进水平。
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
Vikhrmodels
Borealis 是首款面向俄语的自动语音识别(ASR)音频大语言模型,经过约7000小时俄语音频数据训练。该模型支持识别音频中的标点符号,架构受Voxtral启发但有所改进,在多个俄语ASR基准测试中表现优异。
cartesia
这是针对csm.rs框架优化的sesame/csm-1b文本转语音模型的GGUF量化版本,通过量化技术减小模型大小并提升推理效率,适用于语音合成任务。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
音频火烈鸟3是一款完全开源的先进大型音频语言模型,能够提升对语音、声音和音乐的推理与理解能力。
unsloth
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型(Speech-LLM),专为生成高质量、富有情感的语音而设计。
NexaAI
Parakeet TDT 0.6B v2 MLX是一款高效的自动语音识别模型,支持标点、大小写和精确时间戳预测,能够转录长达24分钟的音频片段,适用于商业和非商业用途。
Kokoro是一款8200万参数的开源文本转语音模型,采用轻量级架构但能提供与大型模型相媲美的质量,具有速度快、成本低的优势,采用Apache许可证,适用于生产环境和个人项目
fixie-ai
Ultravox是一个多模态语音大语言模型,能够理解和处理语音输入,支持多种语言和噪声环境。
基于大模型的智能对话机器人项目,支持多平台接入和多种AI模型,具备文本、语音、图像处理及插件扩展能力,可定制企业AI应用。