深度求索将于下周发布多模态大模型V4,原生支持图像、视频与文本生成,旨在填补国内高性能低成本开源多模态模型市场空白。这是继1月发布R1推理模型后的首次重大更新。发布初期将提供简要技术说明,一个月后公开详细工程报告。V4模型已与华为、寒武纪完成底层生态合作。
深度求索将于下周推出多模态大模型DeepSeek V4,原生支持图像、视频和文本生成。这是继今年1月发布R1推理模型后的首次重大更新,旨在满足国内对低成本开源模型的需求,推动AI发展。同时将发布简要技术说明,详细版本预计一个月后推出。
商汤科技开源多模态自主推理模型SenseNova-MARS,提供8B和32B版本。该模型是首个Agentic VLM,融合动态视觉推理与图文搜索,能理解图像并自主推理,推动多模态大模型发展。
亚马逊云科技在2025年re:Invent大会上推出Nova2模型系列,包括四款新模型,在推理、多模态、对话AI、代码生成和Agent任务方面具备领先性价比。其中,Nova2Lite专为日常负载设计,支持文本、图像和视频输入并生成文本输出,是一款快速经济的推理模型。
全新多模态推理模型,支持图文输入、文字输出,具备高精度图像感知与复杂推理能力。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
$8
$240
52
ExaltedSlayer
这是一个基于Mistral Small 3.2构建的24B参数高效推理模型,转换为MLX-MXFP4格式。模型具有增强的推理能力,支持多模态输入,拥有128k上下文窗口,可在RTX 4090或32GB RAM的MacBook上运行。
Mungert
Apriel-1.5-15b-Thinker 是一款由 ServiceNow SLAM 实验室开发的多模态推理模型,参数规模为150亿。它具备强大的文本和图像理解与推理能力,采用‘思考-回答’的链式推理模式,旨在以较小的模型规模实现与大型模型相媲美的性能。
cpatonn
Apriel-1.5-15b-Thinker是ServiceNow开发的150亿参数多模态推理模型,具备文本和图像推理能力,性能可媲美比它大10倍的模型,在人工分析指数上获得52分,在企业领域基准测试中表现优异。
unsloth
Apriel-1.5-15b-Thinker是ServiceNow Apriel SLM系列中的多模态推理模型,具有150亿参数,能够在文本和图像推理任务上与规模大10倍的模型竞争。该模型通过中期训练方案实现了卓越的推理能力,无需图像SFT训练或强化学习即可达到SOTA性能。
ServiceNow-AI
Apriel-1.5-15b-Thinker是ServiceNow开发的多模态推理模型,拥有150亿参数,在文本和图像推理任务上表现出色,性能可与比其大10倍的模型竞争。
internlm
Intern-S1是目前最先进的开源多模态推理模型,结合了强大的通用任务处理能力和在广泛科学任务中的卓越性能,可与领先的闭源商业模型相媲美。该模型在5T token数据集上进行持续预训练,其中超过50%是专业科学数据,具备动态分词器能够原生理解分子式、蛋白质序列和地震信号。
Intern-S1是目前最先进的开源多模态推理模型,结合了强大的通用任务能力和在广泛科学任务上的卓越性能,可与领先的闭源商业模型相媲美。
WenchuanZhang
Patho-R1-7B是一款专门针对病理学领域设计的多模态推理模型,通过三阶段训练管道(持续预训练、监督微调、强化学习)来增强病理诊断理解能力,能够有效处理高分辨率病理图像和复杂诊断推理任务。
Skywork
天工-R1V2-38B是当前最先进的开源多模态推理模型,在多项基准测试中表现卓越,具备强大的视觉推理与文本理解能力。
TIGER-Lab
VL-Reasoner-7B 是一个基于 GRPO-SSR 技术训练的多模态推理模型,在多项多模态推理基准测试中表现卓越。
基于Qwen2.5-14B基础模型和VisualWebInstruct-Verified数据集训练的多模态推理模型,支持英语任务处理。
ydeng9
OpenVLThinker-7B 是一个专为处理多模态任务设计的视觉语言推理模型,特别针对视觉数学问题解决进行了优化。
turningpoint-ai
首个在仅一个非监督微调的2B模型上复现'顿悟时刻'和响应长度增加的多模态推理模型