百度发布文心5.0全模态大模型,参数达2.4万亿,具备强大语言理解与生成能力。其采用全模态统一建模技术,可同时处理文本、图像、音频和视频,实现多类型数据的融合优化,标志着AI领域的重要进展。
谷歌将AI音频功能融入教育,推出基于Gemini模型的播客风格音频课生成工具。教师只需输入主题或大纲,即可自动创建结构清晰、富有感染力的音频内容,帮助学生通过听觉深化理解,尤其迎合Z世代对播客的偏好。
谷歌为Classroom引入Gemini新功能,可将文字教材一键转为播客风格音频课程,旨在提升学生参与度和理解力。教师可自定义年级、学习目标及内容形式,如访谈或圆桌讨论。
2026年初,美国初创公司Pickle推出首款智能眼镜Pickle1,融合AR显示与高级AI,定位为“灵魂电脑”。它能持续捕捉用户视觉与音频信息,实现无限记忆、情感理解和主动交互,旨在成为用户的“第二大脑”。其核心是独特的Pickle OS系统,引发全球科技界关注。
Kimi-Audio 是一个开源音频基础模型,擅长音频理解与生成。
视频理解领域的先进空间-时间建模与音频理解模型。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
-
$8
$240
52
Bytedance
$1.2
$3.6
4
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
XiaomiMiMo
MiMo Audio是小米开发的音频语言模型,通过大规模预训练展现出强大的少样本学习能力。该模型突破了传统模型依赖特定任务微调的局限,在语音智能、音频理解等任务中表现出色,在开源模型中达到先进水平。
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
mispeech
MiDashengLM-7B-0804是小米发布的7B参数多模态语音语言模型,支持音频理解和文本生成任务,适用于通用场景的推理和微调。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
RedHatAI
Voxtral-Mini-3B-2507-FP8-dynamic 是 Voxtral-Mini-3B-2507 的量化版本,针对语音转录、翻译和音频理解进行了优化,采用 FP8 数据类型量化。该模型具有强大的音频理解能力,能处理多种与音频相关的任务。
NexaAI
OmniNeural是全球首个专门为神经处理单元(NPU)设计的全多模态模型,能够原生理解文本、图像和音频,可在PC、移动设备、汽车、物联网和机器人等多种设备上运行。
TencentARC
ARC-Hunyuan-Video-7B 是腾讯ARC实验室开发的多模态模型,专门用于理解现实世界中的短视频内容。它能够端到端处理视觉、音频和文本信号,通过整合多模态线索实现对视频的深度结构化理解。
MohamedRashad
Voxtral Mini是基于Ministral 3B的增强版本,具备先进的音频输入能力,在语音转录、翻译和音频理解等方面表现出色。
音频火烈鸟3是一款完全开源的先进大型音频语言模型,能够提升对语音、声音和音乐的推理与理解能力。
MiDashengLM 是一款高效的音频理解模型,借助通用音频字幕技术,能出色完成各类音频理解任务,在性能和效率上表现卓越。该模型在多个关键音频理解任务上超越同类模型,具有高效的推理速度和全面的音频理解能力。
米大声语言模型是一款高效的音频语言模型,通过基于字幕的对齐方式实现全面的音频理解。该模型在多个音频理解基准测试中取得了领先性能,同时保持较高的推理效率,吞吐量提升3.2倍,支持高达512的批量大小。
fixie-ai
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够理解和处理语音输入,支持多语言语音识别、翻译和音频分析等功能。
google
Gemma 3n是Google推出的轻量级、最先进的开源多模态模型,采用新颖架构,有效参数少,支持文本、图像和音频输入,适用于资源有限环境,能助力各行业内容理解与创新。
worstchan
EAT-base是基于EAT-large预训练模型的微调版本,在AS-2M数据集上进行了进一步训练,提供增强的音频表示能力。该模型采用自监督预训练的高效音频Transformer架构,在下游音频理解任务如分类和字幕生成中表现优异。
EAT-base是基于EAT框架训练的自监督音频Transformer模型,在AS-2M数据集上进行预训练。该模型能够高效提取音频特征,可作为强大的初始化模型用于下游音频理解任务的微调。
EAT-base是一个自监督预训练的高效音频Transformer模型,在AS-2M数据集上进行了微调,提供增强的音频表示能力,在分类和字幕生成等下游音频理解任务中表现优异。
moonshotai
Kimi-Audio是一款开源的音频基础模型,在音频理解、生成和对话方面表现卓越。
金鸣音频是一个在音频理解、生成与对话方面表现卓越的开源音频基础模型,支持多种音频处理任务。
该项目通过Model Context Protocol(MCP)让大型语言模型直接理解和生成Max音频处理软件中的音效模块,支持解释、修改和创建音效模块,并提供与LLM的交互界面。