字节跳动AI核心部门Seed团队近一年流失近70名技术人才,流向头部大厂及AI初创公司,反映国内大模型人才竞争白热化。该团队成立于2023年,专注LLM、语音、视觉及世界模型等前沿研究,其豆包大模型已支持豆包、扣子等50多个应用场景。
字节跳动发布原生全双工语音大模型Seeduplex,实现“边听边说”同步处理,推动AI语音交互从“回合制”向“实时自然交互”演进。该技术已在豆包App全量上线,完成亿级用户规模化落地。
美团发布原生多模态大模型LongCat-Next,突破传统“语言基座+插件”架构,通过DiNA技术将图像、语音与文本统一转化为同源离散Token,实现AI原生“看”与“听”物理世界,完成多模态建模深度统一。
广汽本田P7推送智导互联4.2.2系统OTA升级,核心亮点是全面集成AI大模型,新增“声音复刻”功能。AI大模型提升了座舱交互能力,例如可自动生成旅行攻略,标志着本田在华纯电车型进入大模型驱动新阶段。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。
一个用于生成播客及其他音频文件转录文本的工具,支持多种语言模型和语音识别API。
百聆是一个类似GPT-4o的语音对话机器人,通过ASR+LLM+TTS实现,低配置也可运行,支持打断。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
$8
$240
52
Bytedance
$1.2
$3.6
4
labhamlet
WavJEPA是基于波形的联合嵌入预测架构的音频基础模型,利用高级语义表示学习解决语音单元或标记级表示学习的不足。在众多下游基准任务中显著优于最先进的时域音频基础模型,同时所需计算资源大幅减少。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS Pretrain v0.3是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用优化,采用两阶段管道架构,结合大语言模型和高效音频编解码器,实现极低延迟和高品质语音合成。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
KaniTTS是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用而优化。该模型采用两阶段处理流程,结合大语言模型和高效音频编解码器,在Nvidia RTX 5080上生成15秒音频的延迟仅需约1秒,MOS自然度评分达4.3/5,支持英语、中文、日语等多种语言。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
XiaomiMiMo
MiMo Audio是小米开发的音频语言模型,通过大规模预训练展现出强大的少样本学习能力。该模型突破了传统模型依赖特定任务微调的局限,在语音智能、音频理解等任务中表现出色,在开源模型中达到先进水平。
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
Vikhrmodels
Borealis 是首款面向俄语的自动语音识别(ASR)音频大语言模型,经过约7000小时俄语音频数据训练。该模型支持识别音频中的标点符号,架构受Voxtral启发但有所改进,在多个俄语ASR基准测试中表现优异。
cartesia
这是针对csm.rs框架优化的sesame/csm-1b文本转语音模型的GGUF量化版本,通过量化技术减小模型大小并提升推理效率,适用于语音合成任务。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
音频火烈鸟3是一款完全开源的先进大型音频语言模型,能够提升对语音、声音和音乐的推理与理解能力。
unsloth
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型(Speech-LLM),专为生成高质量、富有情感的语音而设计。
NexaAI
Parakeet TDT 0.6B v2 MLX是一款高效的自动语音识别模型,支持标点、大小写和精确时间戳预测,能够转录长达24分钟的音频片段,适用于商业和非商业用途。
基于大模型的智能对话机器人项目,支持多平台接入和多种AI模型,具备文本、语音、图像处理及插件扩展能力,可定制企业AI应用。