商汤科技发布新一代轻量化多模态智能体模型“日日新 SenseNova6.7Flash-Lite”,标志着AI竞争从“大参数”转向“轻量化与高效率”。该模型专为真实世界工作流设计,通过原生多模态架构突破传统智能体处理复杂长链路任务的瓶颈,核心优势在于卓越的视觉理解与逻辑决策能力,无需依赖“视觉转文本”中间层,实现更高效的任务处理。
谷歌与苹果达成云服务合作,将基于Gemini模型开发下一代Apple Foundation机型,计划于2026年推出全新Siri。该合作旨在结合Gemini的多模态处理能力与苹果私有云架构,提升Siri在复杂指令和跨应用识别方面的表现。
Adobe推出免费AI学习工具“Student Spaces”,面向学生群体,支持免登录使用。该工具集成多模态解析能力,可处理PDF、Office文档、网页链接及手写笔记等多种格式,提供一站式阅读与资料处理平台。
DeepSeek V4与姚顺雨新混元模型将于2026年4月发布。DeepSeek V4由梁文锋主导,是多模态大模型,在代码能力和长期记忆方面有显著提升,专注于视觉内容处理和AI搜索能力,并探索“条件记忆”机制。
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
xAI推出的最新旗舰AI模型Grok 3,具备强大的推理和多模态处理能力。
多模态大型语言模型,提升文本、图像和视频数据处理能力。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
sbintuitions
Sarashina2.2-Vision-3B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2.2-3B-Instruct和SigLIP图像编码器构建,具备强大的图像到文本转换能力,支持日语和英语的多模态处理。
Qwen
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL-4B-Instruct是通义系列最强大的视觉语言模型之一,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,支持在多种硬件设备上运行,具备卓越的多模态推理能力。
unsloth
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,在文本理解、视觉感知、空间理解、视频分析和智能体交互等方面均有显著提升。该模型支持多模态输入,具备强大的推理能力和长上下文处理能力。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8 是 NVIDIA 推出的量化视觉语言模型,采用优化的 Transformer 架构,在商业图像上进行了三阶段训练。该模型支持单图像推理,具备多语言和多模态处理能力,适用于图像总结、文本图像分析等多种场景。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
mlx-community
这是一个基于Qwen3-VL-32B-Thinking模型转换的4位量化版本,专门针对MLX框架优化。该模型是一个32B参数规模的多模态视觉语言模型,具备思维链推理能力,能够同时处理图像和文本输入,生成高质量的文本响应。
lmstudio-community
Qwen3-VL-32B-Instruct是一个强大的多模态视觉语言模型,基于Qwen基础模型开发,经过优化和量化处理,专门针对苹果芯片设备进行了优化,提供高效的图像文本处理能力。
ticoAg
Qwen3-VL-30B-A3B-Instruct-AWQ是Qwen3-VL系列的量化版本,具备强大的视觉语言处理能力,支持图像理解、视频分析、多模态推理等任务。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面均有显著提升。
cpatonn
Qwen3-VL是通义大模型系列最强大的视觉语言模型,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,提供卓越的多模态能力。
numind
NuExtract 2.0是由NuMind开发的专门用于结构化信息提取的多模态模型,支持文本和图像输入,具备多语言处理能力,能够根据JSON模板从输入内容中提取结构化信息。
NuExtract 2.0是NuMind公司专门为结构化信息提取任务训练的一系列多模态模型。该4B版本基于Qwen2.5-VL-3B-Instruct构建,支持文本和图像输入,具备多语言处理能力,能够从非结构化数据中提取结构化信息。
lapa-llm
Lapa LLM 12B PT是基于Google Gemma 3-12B开发的开源大语言模型,专门针对乌克兰语处理优化。由乌克兰多所高校研究团队开发,在乌克兰语处理方面表现卓越,具备高效的指令微调和多模态能力。
MiniCPM4.1-8B-8bit是基于MiniCPM4.1-8B模型转换的8位量化版本,专为MLX框架优化,提供高效的多模态语言处理能力
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
ssweens
Kimi-VL-A3B-Thinking-2506是月之暗面开发的多模态视觉语言模型,支持图像和文本的联合理解与推理,具备思维链推理能力,能够处理复杂的视觉语言任务。
Gemma 3是Google推出的轻量级、最先进的开源模型家族,基于与Gemini模型相同的研究和技术构建。该模型具有多模态处理能力,支持文本和图像输入,并生成文本输出,适用于各种文本生成和图像理解任务。
Gemma 3是谷歌推出的轻量级、最先进的开放模型家族,基于与Gemini模型相同的研究和技术构建。具有多模态处理能力,支持文本和图像输入,并生成文本输出,适用于各种文本生成和图像理解任务。
RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器,支持多模态文档处理与查询,具备端到端文档解析、批量处理、高级查询及持久化存储等功能。