百度发布文心5.0全模态大模型,参数达2.4万亿,具备强大语言理解与生成能力。其采用全模态统一建模技术,可同时处理文本、图像、音频和视频,实现多类型数据的融合优化,标志着AI领域的重要进展。
苹果推出多模态模型Manzano,通过创新的“双修”架构,解决了AI领域长期存在的视觉理解与图像生成难以兼顾的难题。
苹果最新发布的多模态AI模型“Manzano”,成功将视觉识别与文本生成图像功能结合,实现“双修”能力。该模型不仅能精准理解图像内容,还能根据文本生成高质量图片,标志着AI技术的重要突破,有望满足行业对多功能模型的需求。
智谱联合华为开源图像生成模型GLM-Image,这是首个在国产芯片上完成全流程训练的SOTA多模态模型。其创新采用“自回归+扩散解码器”混合架构,实现了图像生成与语言模型的深度融合,在知识密集型任务中表现出色,能精准理解全局指令。
多模态AI模型,图像理解与生成兼备
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
lmstudio-community
Qwen3-VL-2B-Thinking是由Qwen推出的视觉语言模型,基于2B参数规模,使用MLX进行8位量化,专门针对Apple Silicon芯片进行了优化。该模型支持图像和文本的多模态理解与生成任务。
unsloth
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
Hugguf
Qwen3-VL-30B-A3B-Instruct是基于Qwen3-VL-30B模型的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。该模型采用先进的视觉语言融合架构,能够处理复杂的多模态推理任务。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
Qwen3-VL-8B-Instruct是由Qwen开发的视觉语言模型,经过MLX量化优化,专门针对Apple Silicon设备。该模型支持图像和文本的多模态输入,能够理解和生成与图像相关的文本内容。
inclusionAI
Ming-UniVision是一个多模态大语言模型,首次将连续视觉表征集成到下一令牌预测框架中,在单一自回归范式下统一了视觉和语言,无需离散量化或特定模态的头部。该模型支持联合图像理解与生成,在视觉语言训练中收敛速度更快,还支持多轮上下文视觉任务。
KnutJaegersberg
InternVL3_5-38B-Q8_0-GGUF 是基于 OpenGVLab 的 InternVL3_5-38B 模型通过 llama.cpp 转换而来的 GGUF 量化版本。该模型是一个 38B 参数的多模态视觉语言模型,支持图像和文本的联合理解与生成,采用 Q8_0 量化格式以优化推理效率。
prithivMLmods
Gemma 3 270M是谷歌推出的轻量级多模态模型,基于与Gemini系列相同的研究技术,支持文本和图像输入,具有32K上下文窗口,在问答、总结、图像理解和代码生成等任务上提供高质量输出。
Gemma 3是Google推出的轻量级、最先进的开源模型家族,基于与Gemini模型相同的研究和技术构建。该模型具有多模态处理能力,支持文本和图像输入,并生成文本输出,适用于各种文本生成和图像理解任务。
Gemma 3是谷歌推出的轻量级、最先进的开放模型家族,基于与Gemini模型相同的研究和技术构建。具有多模态处理能力,支持文本和图像输入,并生成文本输出,适用于各种文本生成和图像理解任务。
Gemma 3是谷歌推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建。270M版本是其中最小的模型,能够处理文本和图像输入并生成文本输出,适用于多种文本生成和图像理解任务。
benxh
这是XiaomiMiMo/MiMo-VL-7B-RL-2508模型的GGUF量化版本,采用Q6_K量化级别。该模型是一个7B参数规模的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。
ERNIE-4.5-300B-A47B 是一款文本 MoE 后训练模型,拥有 3000 亿的总参数,每个标记有 470 亿的激活参数。该模型具备多模态异构 MoE 预训练、高效扩展基础设施和特定模态后训练等先进技术,能在文本理解与生成、图像理解及跨模态推理等任务中表现出色。
Gapeleon
BAGEL是一个开源的7B活跃参数多模态基础模型,支持多模态理解与生成任务
iqbalamo93
Gemma 3是谷歌推出的轻量级多模态模型,基于与Gemini相同的技术构建。它支持文本和图像输入,输出文本,适用于文本生成和图像理解等多种任务,且模型尺寸多样,能在资源有限的环境中部署。
Gemma 3是谷歌推出的轻量级开源多模态模型系列,基于与Gemini模型相同的研究构建。本版本为4B参数的指令微调模型,采用量化感知训练(QAT),支持文本和图像输入并生成文本输出,适用于多种文本生成和图像理解任务。
Undi95
Llama 4 Maverick 是 Meta 发布的多模态 AI 模型,支持文本与图像理解,采用混合专家架构(MoE),在多语言文本和代码生成任务中表现优异。
axolotl-mirrors
Gemma 3是谷歌推出的轻量级、最先进的开放模型家族,基于与Gemini模型相同的研究和技术构建。它支持多模态,能处理文本和图像输入并生成文本输出,适用于多种文本生成和图像理解任务。
Mungert
Qwen2.5-VL-72B-Instruct是一个72B参数规模的多模态大模型,支持视觉-语言任务,能够理解和生成与图像相关的文本内容。