Rivian于5月12日宣布推出AI驱动车载语音助手Rivian Assistant,基于自研“统一智能”多模态AI架构,通过软件更新向已订阅Connect Plus蜂窝服务的Gen1和Gen2车主推送,月费15美元。该助手能直接回答车辆相关问题并执行深度控制,将AI能力融入车辆运营各环节。
商汤科技于4月28日开源“日日新SenseNova U1”系列,这是一款“原生理解生成统一模型”,突破了传统多模态模型依赖不同模块“拼接”的局限,通过统一架构实现视觉与语言模块的深度融合,标志着国产AI在多模态领域的重要技术突破。
商汤科技发布并开源日日新SenseNova U1系列模型,基于自研NEO-unify架构,实现多模态理解、推理与生成的深度统一,标志着从“集成式”向“原生统一”的跨越。该架构摒弃拼接式设计,去除视觉编码器和变分自编码器,提升了模型效率与性能。
美团发布原生多模态大模型LongCat-Next,突破传统“语言基座+插件”架构,通过DiNA技术将图像、语音与文本统一转化为同源离散Token,实现AI原生“看”与“听”物理世界,完成多模态建模深度统一。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
$8
$240
52
ByteDance-Seed
SAIL是一个专为视觉与语言设计的单一Transformer模型,作为统一的多模态大语言模型(MLLM),它在单一架构中无缝集成了原始像素编码和语言解码功能。
Athagi
Janus-Pro 是一种新颖的自回归框架,统一了多模态理解和生成。它通过解耦视觉编码路径,使用单一的统一 Transformer 架构处理多模态任务。
deepseek-ai
Janus-Pro 是一种新颖的自回归框架,统一了多模态理解与生成能力。通过解耦视觉编码路径,使用单一 Transformer 架构处理多模态任务。
Janus-Pro 是一种创新的自回归框架,统一了多模态理解与生成功能。通过解耦视觉编码路径,采用单一Transformer架构处理,解决了视觉编码器在理解与生成角色间的冲突。