谷歌推出Mac版原生Gemini应用,支持macOS15及以上系统,用户可通过快捷键随时调用AI助手,实现系统级集成,增强桌面AI助手竞争力。
MiniMax推出MMX-CLI命令行工具,专为AI Agent设计,简化全模态模型调用流程。该工具解决了接口适配繁琐、代码冗余等问题,使Agent能像原生应用一样轻松调度多种AI能力。用户可在主流开发环境中一键调用编程、视频生成等功能,无需额外编写MCP Server或适配复杂接口。
美团发布原生多模态大模型LongCat-Next,突破传统“语言基座+插件”架构,通过DiNA技术将图像、语音与文本统一转化为同源离散Token,实现AI原生“看”与“听”物理世界,完成多模态建模深度统一。
谷歌发布开源大模型Gemma4,通过“单位参数智能”提升,为开源模型辅助智能体工作流设定新标准。该系列包含2.3B、4.5B高效版及26B、31B高性能版,基于Gemini3技术栈,全系支持多模态输入,部分版本原生支持语音输入,实现端侧实时语音理解。
字节跳动Seedance 2.0 API,支持多模态输入生成视频,有原生音频等功能。
Wan 2.5支持原生多模态AV生成,可10秒生成1080p视频,音画同步。
一个用于智能设备等的多模态原生代理框架。
多模态原生Mixture-of-Experts模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
$8
$240
52
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
BAAI
Emu3.5是北京智源人工智能研究院开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模和生成。通过端到端预训练和大规模强化学习后训练,在多模态任务中展现出卓越性能。
Emu3.5是由北京智源人工智能研究院(BAAI)开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模与生成,在多模态任务中表现卓越。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
lmms-lab
LLaVA-OneVision-1.5 是一系列完全开源的大型多模态模型,通过在原生分辨率图像上进行训练,以较低的成本实现了先进的性能。该模型在多个多模态基准测试中展现出卓越性能,超越了Qwen2.5-VL等竞争对手。
NexaAI
OmniNeural是全球首个专门为神经处理单元(NPU)设计的全多模态模型,能够原生理解文本、图像和音频,可在PC、移动设备、汽车、物联网和机器人等多种设备上运行。
XiaomiMiMo
MiMo-VL是一款紧凑且强大的视觉语言模型,结合了原生分辨率ViT编码器、MLP投影器和MiMo-7B语言模型,在多模态推理等任务中表现出色。该模型在多个基准测试中表现优异,具备思维控制功能,用户体验显著提升。
internlm
Intern-S1是目前最先进的开源多模态推理模型,结合了强大的通用任务处理能力和在广泛科学任务中的卓越性能,可与领先的闭源商业模型相媲美。该模型在5T token数据集上进行持续预训练,其中超过50%是专业科学数据,具备动态分词器能够原生理解分子式、蛋白质序列和地震信号。
chs20
FuseLIP是一种创新的多模态嵌入模型,它通过一个单一的Transformer模型,使用扩展的词汇表同时处理文本和图像离散令牌,实现了模态间的早期深度融合。该方法解决了传统对比式语言-图像预训练模型无法原生编码多模态输入的问题,在视觉问答和文本引导的图像检索等任务上表现出色。
unsloth
InternVL3-78B-Instruct是一个先进的多模态大语言模型,在多模态感知、推理和语言处理等方面表现出色。该模型通过原生多模态预训练方法,将视觉和语言学习整合到统一训练阶段,在工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域展现出卓越能力。
InternVL3-2B-Instruct是先进的多模态大语言模型,相比前代有更出色的多模态感知和推理能力,扩展了工具使用、GUI代理、工业图像分析、3D视觉感知等方面。采用原生多模态预训练方法,将语言和视觉学习整合到单个预训练阶段。
RedHatAI
Llama 4系列原生多模态AI模型,支持文本和图像理解,采用混合专家架构,适用于商业和研究场景。
Llama-4-Scout是Meta推出的Llama 4系列模型之一,采用混合专家(MoE)架构,是原生多模态AI模型,支持文本和图像输入,在多语言文本理解和视觉任务方面表现出色。该模型具有17B参数,16个专家,专为商业和研究用途设计。
meta-llama
Llama Guard 4 是一个原生多模态安全分类器,拥有120亿参数,联合训练于文本和多重图像,用于大语言模型输入和输出的内容安全评估。
fahadh4ilyas
Llama 4系列是Meta推出的原生多模态AI模型,采用混合专家架构,支持文本和图像交互,在多种语言和视觉任务中表现卓越。
Llama 4系列是Meta推出的原生多模态AI模型,支持文本和图像交互,采用混合专家架构,在文本和图像理解方面表现卓越。
OpenGVLab
InternVL3-1B是OpenGVLab推出的先进多模态大语言模型,已完成原生多模态预训练但未进行后训练。
InternVL3-2B-Instruct是基于InternVL3-2B的监督微调版本,经过原生多模态预训练和SFT处理,具备强大的多模态感知和推理能力。
InternVL3-1B-Instruct 是 InternVL3 系列的监督微调版本,基于原生多模态预训练,具备卓越的多模态感知和推理能力。
hirundo-io
Llama 4 Scout是Meta推出的原生多模态AI模型,支持多语言文本和图像理解,采用混合专家架构,在文本和图像理解方面具有行业领先性能。