埃隆・马斯克在巴伦投资大会上首次量化预测AGI时间表:明年Q1发布的Grok 5有约10%概率实现通用人工智能。技术亮点包括:6万亿参数MoE架构(稀疏度70%)、多模态统一编码(文本/图像/音频/实时视频流)、帧级延迟<120ms。训练数据来自X平台每日5亿帖文与2亿小时视频流,支持实时回灌训练。
阿里巴巴发布通义全模态预训练模型Qwen3-Omni系列,支持音频、视频、文本等多模态信息处理,具备类人感知能力。该模型在36项音视频基准测试中,22项达SOTA水平,32项为开源模型最优,尤其在语音识别领域表现突出,标志着AI技术重大突破,拓展了未来应用潜力。
阿里云发布全球首个原生端到端全模态AI模型Qwen3-Omni并开源。该模型支持文本、图像、音频、视频多模态输入,实现实时流式输出,响应迅速。通过文本预训练与多模态混合训练,Qwen3-Omni具备强大跨模态能力,在多个领域表现先进。
InternLM团队发布开源轻量级多模态推理模型Intern-S1-mini。该模型仅8B参数,融合Qwen3-8B语言模型与0.3B视觉编码器InternViT,具备强大处理能力。经过超5万亿token数据预训练,其中2.5万亿来自化学、物理等科学领域,使其在科学任务中表现优异。
大规模多模态预训练数据集
开源多模态预训练模型,具备中英双语对话能力。
第二代多模态预训练对话模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
$8
$240
52
BAAI
Emu3.5是北京智源人工智能研究院开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模和生成。通过端到端预训练和大规模强化学习后训练,在多模态任务中展现出卓越性能。
inclusionAI
Ming-UniVision是一个多模态大语言模型,首次将连续视觉表征集成到下一令牌预测框架中,在单一自回归范式下统一了视觉和语言,无需离散量化或特定模态的头部。该模型支持联合图像理解与生成,在视觉语言训练中收敛速度更快,还支持多轮上下文视觉任务。
internlm
Intern-S1是目前最先进的开源多模态推理模型,结合了强大的通用任务处理能力和在广泛科学任务中的卓越性能,可与领先的闭源商业模型相媲美。该模型在5T token数据集上进行持续预训练,其中超过50%是专业科学数据,具备动态分词器能够原生理解分子式、蛋白质序列和地震信号。
unsloth
ERNIE-4.5-300B-A47B 是一款文本 MoE 后训练模型,拥有 3000 亿的总参数,每个标记有 470 亿的激活参数。该模型具备多模态异构 MoE 预训练、高效扩展基础设施和特定模态后训练等先进技术,能在文本理解与生成、图像理解及跨模态推理等任务中表现出色。
gabriellarson
ERNIE-4.5-300B-A47B 是一款基于 MoE 架构的多模态预训练模型,具备强大的文本理解和生成能力,支持视觉-语言联合推理。
fixie-ai
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够理解和处理语音输入,支持多语言语音识别、翻译和音频分析等功能。
numind
NuExtract 2.0是专为结构化信息提取任务训练的多模态多语言模型系列,基于QwenVL系列预训练模型开发。
WenchuanZhang
Patho-R1-7B是一款专门针对病理学领域设计的多模态推理模型,通过三阶段训练管道(持续预训练、监督微调、强化学习)来增强病理诊断理解能力,能够有效处理高分辨率病理图像和复杂诊断推理任务。
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够处理语音和文本输入。
chs20
FuseLIP是一种创新的多模态嵌入模型,它通过一个单一的Transformer模型,使用扩展的词汇表同时处理文本和图像离散令牌,实现了模态间的早期深度融合。该方法解决了传统对比式语言-图像预训练模型无法原生编码多模态输入的问题,在视觉问答和文本引导的图像检索等任务上表现出色。
InternVL3-78B-Instruct是一个先进的多模态大语言模型,在多模态感知、推理和语言处理等方面表现出色。该模型通过原生多模态预训练方法,将视觉和语言学习整合到统一训练阶段,在工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域展现出卓越能力。
InternVL3-2B-Instruct是先进的多模态大语言模型,相比前代有更出色的多模态感知和推理能力,扩展了工具使用、GUI代理、工业图像分析、3D视觉感知等方面。采用原生多模态预训练方法,将语言和视觉学习整合到单个预训练阶段。
jobs-git
SkyReels V2是全球首个采用扩散强制框架的无限长度电影生成模型,融合多模态大语言模型、多阶段预训练、强化学习与扩散强制技术实现全面优化。
OpenGVLab
InternVL3-1B是OpenGVLab推出的先进多模态大语言模型,已完成原生多模态预训练但未进行后训练。
InternVL3-2B-Instruct是基于InternVL3-2B的监督微调版本,经过原生多模态预训练和SFT处理,具备强大的多模态感知和推理能力。
InternVL3-1B-Instruct 是 InternVL3 系列的监督微调版本,基于原生多模态预训练,具备卓越的多模态感知和推理能力。
lcybuaa
Git-RSCLIP是基于Git-10M数据集预训练的视觉-语言模型,专注于遥感图像的多模态理解。
JerrryNie
ConceptCLIP是一个通过医学概念增强的大规模视觉语言预训练模型,适用于多种医学影像模态,能在多种医学影像任务中实现稳健性能。
TucanoBR
ViTucano是首个原生葡萄牙语预训练的视觉助手,融合视觉理解与语言能力,适用于多模态任务如图像描述、视觉问答等。
ViTucano是原生葡萄牙语预训练的视觉助手,整合了视觉理解与语言能力,适用于多模态任务。