商汤科技于4月28日开源“日日新SenseNova U1”系列,这是一款“原生理解生成统一模型”,突破了传统多模态模型依赖不同模块“拼接”的局限,通过统一架构实现视觉与语言模块的深度融合,标志着国产AI在多模态领域的重要技术突破。
商汤科技发布并开源日日新SenseNova U1系列模型,基于自研NEO-unify架构,实现多模态理解、推理与生成的深度统一,标志着从“集成式”向“原生统一”的跨越。该架构摒弃拼接式设计,去除视觉编码器和变分自编码器,提升了模型效率与性能。
阿里巴巴ATH创新事业部推出新一代多模态视频生成模型HappyHorse,已开启灰度测试。该模型在Arena.ai三大核心榜单(文生视频、图生视频、视频编辑)中表现优异,具备影视级画质与深度语义理解能力,支持1080P超高清输出,能精准驾驭港式风情、古装等多种视觉风格,成为全球AI视频领域的有力竞争者。
IBM发布Granite 4.0 3B Vision视觉语言模型,拥有30亿参数,专为企业级复杂文档数据提取优化。该模型针对金融、法律、医疗等行业非结构化数据处理难题,在复杂表格、扫描件及多模态布局文档中表现突出,通过结合视觉理解与语言生成,精准识别并提取关键信息。
多模态AI模型,图像理解与生成兼备
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
lmstudio-community
Qwen3-VL-2B-Thinking是由Qwen推出的视觉语言模型,基于2B参数规模,使用MLX进行8位量化,专门针对Apple Silicon芯片进行了优化。该模型支持图像和文本的多模态理解与生成任务。
unsloth
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
Hugguf
Qwen3-VL-30B-A3B-Instruct是基于Qwen3-VL-30B模型的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。该模型采用先进的视觉语言融合架构,能够处理复杂的多模态推理任务。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
Qwen3-VL-8B-Instruct是由Qwen开发的视觉语言模型,经过MLX量化优化,专门针对Apple Silicon设备。该模型支持图像和文本的多模态输入,能够理解和生成与图像相关的文本内容。
inclusionAI
Ming-UniVision是一个多模态大语言模型,首次将连续视觉表征集成到下一令牌预测框架中,在单一自回归范式下统一了视觉和语言,无需离散量化或特定模态的头部。该模型支持联合图像理解与生成,在视觉语言训练中收敛速度更快,还支持多轮上下文视觉任务。
KnutJaegersberg
InternVL3_5-38B-Q8_0-GGUF 是基于 OpenGVLab 的 InternVL3_5-38B 模型通过 llama.cpp 转换而来的 GGUF 量化版本。该模型是一个 38B 参数的多模态视觉语言模型,支持图像和文本的联合理解与生成,采用 Q8_0 量化格式以优化推理效率。
prithivMLmods
Gemma 3 270M是谷歌推出的轻量级多模态模型,基于与Gemini系列相同的研究技术,支持文本和图像输入,具有32K上下文窗口,在问答、总结、图像理解和代码生成等任务上提供高质量输出。
Gemma 3是Google推出的轻量级、最先进的开源模型家族,基于与Gemini模型相同的研究和技术构建。该模型具有多模态处理能力,支持文本和图像输入,并生成文本输出,适用于各种文本生成和图像理解任务。
Gemma 3是谷歌推出的轻量级、最先进的开放模型家族,基于与Gemini模型相同的研究和技术构建。具有多模态处理能力,支持文本和图像输入,并生成文本输出,适用于各种文本生成和图像理解任务。
Gemma 3是谷歌推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建。270M版本是其中最小的模型,能够处理文本和图像输入并生成文本输出,适用于多种文本生成和图像理解任务。
benxh
这是XiaomiMiMo/MiMo-VL-7B-RL-2508模型的GGUF量化版本,采用Q6_K量化级别。该模型是一个7B参数规模的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。
ERNIE-4.5-300B-A47B 是一款文本 MoE 后训练模型,拥有 3000 亿的总参数,每个标记有 470 亿的激活参数。该模型具备多模态异构 MoE 预训练、高效扩展基础设施和特定模态后训练等先进技术,能在文本理解与生成、图像理解及跨模态推理等任务中表现出色。
Gapeleon
BAGEL是一个开源的7B活跃参数多模态基础模型,支持多模态理解与生成任务
iqbalamo93
Gemma 3是谷歌推出的轻量级多模态模型,基于与Gemini相同的技术构建。它支持文本和图像输入,输出文本,适用于文本生成和图像理解等多种任务,且模型尺寸多样,能在资源有限的环境中部署。
Gemma 3是谷歌推出的轻量级开源多模态模型系列,基于与Gemini模型相同的研究构建。本版本为4B参数的指令微调模型,采用量化感知训练(QAT),支持文本和图像输入并生成文本输出,适用于多种文本生成和图像理解任务。
Undi95
Llama 4 Maverick 是 Meta 发布的多模态 AI 模型,支持文本与图像理解,采用混合专家架构(MoE),在多语言文本和代码生成任务中表现优异。
axolotl-mirrors
Gemma 3是谷歌推出的轻量级、最先进的开放模型家族,基于与Gemini模型相同的研究和技术构建。它支持多模态,能处理文本和图像输入并生成文本输出,适用于多种文本生成和图像理解任务。
Mungert
Qwen2.5-VL-72B-Instruct是一个72B参数规模的多模态大模型,支持视觉-语言任务,能够理解和生成与图像相关的文本内容。