腾讯混元团队开源混元图像3.0图生图模型,拥有800亿参数,采用混合专家架构,在全球影像编辑榜单中位列第七。其核心突破在于“先思考,后编辑”的多模态架构,成为当前全球最强的开源图生图模型。
百度发布文心大模型5.0正式版,拥有2.4万亿参数,实现从多模态融合到“原生全模态”的跨越。其采用原生全模态统一建模技术,在统一架构中对文本、图像、视频和音频进行联合训练,区别于行业常见的“后期合成”方案。
谷歌发布基于Gemma3架构的TranslateGemma翻译模型系列,提供4B、12B、27B三种参数规模,支持55种核心语言翻译,并具备多模态图像翻译能力,实现文本与图片文字的无缝翻译。
苹果推出多模态模型Manzano,通过创新的“双修”架构,解决了AI领域长期存在的视觉理解与图像生成难以兼顾的难题。
多模态驱动的定制视频生成架构。
大规模视频生成模型,可创建逼真视觉效果与自然连贯动作。
一种用于扩展多模态大型语言模型(LLMs)的先进架构。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
$8
$240
52
Gjm1234
Wan2.2是基础视频模型的重大升级版本,专注于将有效MoE架构、高效训练策略和多模态融合等创新技术融入视频扩散模型,为视频生成领域带来更强大、更高效的解决方案。
MuXodious
Gemma 3n E4B IT 是谷歌推出的轻量级多模态开放模型,基于与Gemini模型相同的研究构建。该模型支持文本、音频和视觉输入,适用于多种任务,采用MatFormer架构实现高效参数利用。
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
cyankiwi
ERNIE-4.5-VL-28B-A3B-Thinking AWQ - INT8是基于百度ERNIE-4.5架构的多模态大语言模型,通过AWQ量化技术实现8位精度,在保持高性能的同时大幅降低内存需求。该模型在视觉推理、STEM问题解决、图像分析等方面表现出色,具备强大的多模态理解和推理能力。
NyxKrage
Moondream 3 Preview HF是基于HuggingFace Transformers架构规范对Moondream 3 (Preview)模型的重新实现,使其能够与Hugging Face生态系统完全兼容。这是一个多模态视觉语言模型,采用专家混合(MoE)文本主干,约90亿参数,20亿活跃参数。
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全开源全模态模型,采用全模态 3D RoPE 和动态容量专家混合架构,显著提升了以语言为中心的多模态理解、推理和生成能力。该版本集成了全模态理解以及音频和图像生成能力。
noctrex
这是一个基于Mistral架构的图像文本转文本量化模型,参数规模为24B,专门针对指令跟随任务进行了优化训练,支持多模态输入处理。
unsloth
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Hugguf
Qwen3-VL-30B-A3B-Instruct是基于Qwen3-VL-30B模型的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。该模型采用先进的视觉语言融合架构,能够处理复杂的多模态推理任务。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8 是 NVIDIA 推出的量化视觉语言模型,采用优化的 Transformer 架构,在商业图像上进行了三阶段训练。该模型支持单图像推理,具备多语言和多模态处理能力,适用于图像总结、文本图像分析等多种场景。
本项目提供了慧慧Qwen3-VL-30B-A3B-Instruct模型的量化版本,旨在提升模型在特定场景下的性能与效率。这是一个基于Qwen3-VL架构的视觉语言模型,支持图像和文本的多模态交互。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
Pacific-Prime
INL架构是一种基于积分神经元动力学的生产级神经架构,用迭代动力学取代传统前馈网络层,适用于大语言模型、视觉变换器、多模态模型等多种类型。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
NVIDIA Qwen2.5-VL-7B-Instruct-FP4是阿里巴巴Qwen2.5-VL-7B-Instruct模型的量化版本,采用优化的Transformer架构,支持多模态输入(文本和图像),适用于多种AI应用场景。该模型通过TensorRT Model Optimizer进行FP4量化,在NVIDIA GPU上提供高效的推理性能。
QuantStack
Qwen-Image是基于Qwen架构的多模态视觉语言模型,支持文本到图像的生成任务,采用GGUF格式转换以便在ComfyUI中使用,保留了原模型的Apache-2.0许可证和使用限制。
Koitenshin
这是一个基于InternVL3架构的多模态视觉语言模型,经过量化处理为GGUF格式,支持图像文本到文本的转换,具备多语言能力。
Mungert
ERNIE-4.5-21B-A3B-PT是基于MoE架构的先进文本生成模型,具有210亿参数和高效的多模态处理能力。