Meta提出基于多模态感知的AI面部表情生成技术,通过分析用户身体动作、语音等多维度信息,在虚拟互动中实现自然生动的表情生成,克服了传统方案依赖昂贵硬件或仅同步音频的局限,尤其适用于用户活动复杂、面部遮挡或仅通过身体传达信息的场景。
国地中心与纬钛机器人联合发布全球首个大规模跨本体视触觉多模态数据集“白虎-VTouch”,旨在解决机器人精细化操作中触觉感知的难题,填补了该领域数据空白,为全球开发者提供了重要资源。
国地中心与纬钛机器人联合发布全球首个跨本体视触觉多模态机器人操作数据集“白虎-VTouch”,规模最大、模态最完整。该数据集首创跨本体视触觉多模态真实交互数据采集范式,包含高精度视触觉传感器数据、RGB-D深度视觉及关节位姿等关键信息,推动机器人视触觉感知从单一形态向跨本体真实交互跨越。
阶跃星辰开源多模态视觉语言模型Step3-VL-10B,仅10B参数却在多项基准测试中表现卓越,解决了小模型智能水平不足的痛点。该模型在视觉感知、逻辑推理和数学竞赛等维度达到同规模最优,甚至超越规模大10至20倍的开源及闭源旗舰模型。
全新多模态推理模型,支持图文输入、文字输出,具备高精度图像感知与复杂推理能力。
高分辨率多模态感知 LVLM
VCoder是一款视觉感知模型,可提高多模态大型语言模型在对象级视觉任务上的性能。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
$8
$240
52
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
DavidAU
这是一个增强版的多模态视觉语言模型,基于Qwen3-VL-8B-Thinking模型,通过Brainstorm 20x技术扩展至12B参数,采用NEO Imatrix增强的GGUF量化。模型具备强大的图像理解、文本生成和多模态推理能力,在视觉感知、文本质量和创意场景方面都有显著提升。
Qwen
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL-4B-Instruct是通义系列最强大的视觉语言模型之一,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,支持在多种硬件设备上运行,具备卓越的多模态推理能力。
unsloth
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,在文本理解、视觉感知、空间理解、视频分析和智能体交互等方面均有显著提升。该模型支持多模态输入,具备强大的推理能力和长上下文处理能力。
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
Lamapi
Next 12B是基于Gemma 3的120亿参数多模态视觉语言模型,是土耳其最先进的开源视觉语言模型。该模型在文本和图像理解方面表现出色,具备先进的推理和上下文感知多模态输出能力,特别提供专业级的土耳其语支持,同时具备广泛的多语言能力。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
ticoAg
Qwen3-VL-30B-A3B-Instruct-AWQ是Qwen3-VL系列的量化版本,具备强大的视觉语言处理能力,支持图像理解、视频分析、多模态推理等任务。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面均有显著提升。
cpatonn
Qwen3-VL是通义大模型系列最强大的视觉语言模型,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,提供卓越的多模态能力。
PaDT-MLLM
PaDT Pro 3B是基于Qwen2.5VL-3B的多模态大语言模型,采用可解码块令牌的统一范式,能够直接生成文本和视觉输出,在多个视觉感知和理解任务中取得先进性能。
OpenGVLab
VideoChat-R1_5-7B是基于Qwen2.5-VL-7B-Instruct构建的视频文本交互模型,支持多模态任务,特别擅长视频问答功能。该模型通过强化微调增强时空感知能力,并采用迭代感知机制来强化多模态推理。
PerceptronAI
Isaac-0.1是感知公司推出的首个开源视觉语言模型,拥有20亿参数,专为现实世界应用设计。该模型在多模态理解和空间推理方面表现出色,性能达到甚至超越比它大50倍以上的模型,树立了新的效率标准。
Kwai-Keye
快手Keye-VL是由快手Keye团队打造的前沿多模态大语言模型,在视频理解、视觉感知和推理任务中表现卓越。1.5版本通过创新的快慢视频编码策略、LongCoT冷启动数据管道和强化学习训练策略,在视频理解、图像感知和推理能力上达到新高度,支持长达128k标记的扩展上下文长度。
utter-project
TowerVision是一个开源的多语言视觉语言模型家族,具备强大的多模态理解能力,在20种语言和方言中表现出色,特别擅长多模态多语言翻译和文化感知任务。
Gemma 3是谷歌推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建。该270M版本是经过指令调优的模型,采用量化感知训练(QAT),能够在显著降低内存需求的同时保持与bfloat16相近的质量。
NexaAI
Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,同时以流式方式生成文本和自然语音响应。