声智科技推出全球首款多模态AI时尚耳机,融合视觉与声学交互,突破传统耳机局限。该产品定位为“随身感知工具”,通过声视融合技术实现“看得见、听得清、回得准”,即将在Kickstarter全球首发。
诺亦腾机器人完成Pre-A+轮融资,由启明创投领投,多家机构参投及追加,实现超额认购。公司累计融资已达数亿元,资金将用于具身智能多模态数据的采集、处理与交互技术研发。
Meta发布SAM Audio,全球首个统一多模态音频分离模型。用户可通过点击视频中物体、输入关键词或圈定时间片段,一键提取目标声音或过滤噪音,实现“用眼睛听声音”。该技术首次模拟人类自然感知声音的方式,支持看、说等多种交互。
李飞飞World Labs推出Marble 3D世界模型公测版,支持文本、图像、视频等多模态输入,快速生成可交互虚拟宇宙,助力开发者探索AI技术应用。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
OpenGVLab
InternVL3.5-4B是开源多模态模型系列中的中等规模版本,在通用性、推理能力和推理效率上取得显著进展,支持GUI交互等新能力。该模型采用级联强化学习框架和视觉分辨率路由器技术,实现了高效的多模态理解与推理。