SALMONN框架:拓展大型语言模型通用听觉能力
站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
英伟达发布大模型微调指南,降低技术门槛,让普通开发者也能在消费级设备上高效完成模型定制。该指南详解如何在NVIDIA全系硬件上利用开源框架Unsloth实现专业级微调。Unsloth专为NVIDIA GPU打造,优化训练全流程,提升性能。
声智科技推出全球首款多模态AI时尚耳机,融合视觉与声学交互,突破传统耳机局限。该产品定位为“随身感知工具”,通过声视融合技术实现“看得见、听得清、回得准”,即将在Kickstarter全球首发。
中兴与字节跳动合作推出“豆包手机”,瞄准AI手机未来。双方基于“开放即创新”理念,共同布局AI赛道。中兴表示,这只是起点,已收到多家大模型厂商合作邀约,正构建多元AI生态。
Jan团队发布300亿参数多模态大模型Jan-v2-VL-Max,专为长周期、高稳定性自动化任务设计,性能超越谷歌Gemini2.5Pro与DeepSeek R1。该模型重点解决多步任务中的“误差累积”和“失焦”问题,为开源智能体生态提供强大支持。

Jan团队推出30B参数多模态模型Jan-v2-VL-Max,专注解决AI在复杂自动化任务中易中断的痛点。该模型基于Qwen3-VL-30B-A3B-Thinking,引入LoRA-based RLVR技术,旨在提升多步操作的稳定性,实现更可靠的长周期任务执行。

近日,国际电信联盟会议通过由蚂蚁集团等单位提出的《终端多智能体系统可信要求》国际标准项目。该标准聚焦可信连接、身份、意图等核心要素,旨在推动终端智能体生态的共建与可信发展。
大模型竞赛进入“落地攻坚”阶段,火山引擎提出AI演进新范式:智能Agent成为AI落地核心载体,多模态能力与高效开发体系是关键。大模型正从问答交互转向深入汽车、制造等复杂场景,实现从“聊天”到“干活”的跨越。

苹果推出多模态AI模型UniGen1.5,整合图像理解、生成与编辑三大功能于统一框架,显著提升效率。该模型利用图像理解能力优化生成效果,实现技术突破。
Meta发布SAM Audio,全球首个统一多模态音频分离模型。用户可通过点击视频中物体、输入关键词或圈定时间片段,一键提取目标声音或过滤噪音,实现“用眼睛听声音”。该技术首次模拟人类自然感知声音的方式,支持看、说等多种交互。
美的集团旗下美的医疗推出自主知识产权“医学影像多模态智能诊断大模型”,实现AI医疗关键突破。该模型可一次性自动检测肺结核、肺炎、气胸、骨折等常见胸部疾病,并生成结构化诊断报告,显著提升基层医疗机构阅片效率与诊断一致性。