百度发布文心5.0全模态大模型,参数达2.4万亿,具备强大语言理解与生成能力。其采用全模态统一建模技术,可同时处理文本、图像、音频和视频,实现多类型数据的融合优化,标志着AI领域的重要进展。
谷歌于12月1日推出Gemini 3大模型,接入搜索AI模式,覆盖近120个国家地区,向AI Pro与Ultra订阅用户开放。同时上线Nano Banana Pro图像模型,支持2K/4K分辨率、精准文本渲染及专业级摄影控制,定价1080p为0.139美元、4K为0.24美元。Gemini 3采用原生多模态架构,统一处理文本、图像、音频和视频。
昆仑元AI在2025世界计算大会上发布全模态融合模型BaiZe-Omni-14b-a2b,基于昇腾平台,具备文本、音频、图像和视频的理解与生成能力。采用模态解耦编码、统一跨模态融合和双分支功能设计等创新架构,推动多模态应用发展。模型流程包括输入处理、模态适配、融合、核心功能和输出解码。
谷歌推出NotebookLM图像识别功能,支持上传板书、教材或表格图片,自动完成文字识别与语义分析,用户可直接用自然语言检索图片内容。该功能全平台免费,即将增加本地处理选项保护隐私。系统采用多模态技术,能区分手写与印刷体、解析表格结构,并与现有笔记智能关联。
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
SmolVLM-256M 是世界上最小的多模态模型,可高效处理图像和文本输入并生成文本输出。
SmolVLM-500M 是一个轻量级多模态模型,能够处理图像和文本输入并生成文本输出。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
$8
$240
52
pramjana
Qwen3-VL-4B-Instruct是阿里巴巴推出的40亿参数视觉语言模型,基于Qwen3架构开发,支持多模态理解和对话任务。该模型具备强大的图像理解和文本生成能力,能够处理复杂的视觉语言交互场景。
sbintuitions
Sarashina2.2-Vision-3B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2.2-3B-Instruct和SigLIP图像编码器构建,具备强大的图像到文本转换能力,支持日语和英语的多模态处理。
noctrex
这是一个基于Mistral架构的图像文本转文本量化模型,参数规模为24B,专门针对指令跟随任务进行了优化训练,支持多模态输入处理。
这是一个基于Huihui-Qwen3-VL-4B-Instruct-abliterated模型的量化版本,专门用于图像文本到文本的转换任务,通过量化处理优化了模型性能,为多模态应用提供支持。
ExaltedSlayer
Gemma 3 27B IT QAT的MLX MXFP4量化版本,是由Google开发的轻量级开源多模态模型。该模型能够同时处理文本和图像输入并生成文本输出,拥有128K大上下文窗口,支持超过140种语言,适用于多种文本生成和图像理解任务。
strangervisionhf
这是一个修复后的图像文本转文本模型,解决了原模型在最新Transformers版本中推理失败的问题。该模型专门用于图像识别和文本生成任务,支持多模态输入处理。
Hugguf
Qwen3-VL-30B-A3B-Instruct是基于Qwen3-VL-30B模型的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。该模型采用先进的视觉语言融合架构,能够处理复杂的多模态推理任务。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8 是 NVIDIA 推出的量化视觉语言模型,采用优化的 Transformer 架构,在商业图像上进行了三阶段训练。该模型支持单图像推理,具备多语言和多模态处理能力,适用于图像总结、文本图像分析等多种场景。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
mlx-community
这是一个基于Qwen3-VL-32B-Thinking模型转换的4位量化版本,专门针对MLX框架优化。该模型是一个32B参数规模的多模态视觉语言模型,具备思维链推理能力,能够同时处理图像和文本输入,生成高质量的文本响应。
lmstudio-community
Qwen3-VL-32B-Instruct是一个强大的多模态视觉语言模型,基于Qwen基础模型开发,经过优化和量化处理,专门针对苹果芯片设备进行了优化,提供高效的图像文本处理能力。
ticoAg
Qwen3-VL-30B-A3B-Instruct-AWQ是Qwen3-VL系列的量化版本,具备强大的视觉语言处理能力,支持图像理解、视频分析、多模态推理等任务。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面均有显著提升。
Qwen3-VL-8B-Instruct是由Qwen团队开发的多模态视觉语言模型,支持图像文本到文本转换。该版本经过MLX 8位量化处理,专门针对苹果硅芯片进行优化,在保持性能的同时提升运行效率。
onnx-community
Granite Docling 258M是一个基于ONNX格式的图像文本转文本模型,专门用于文档理解和处理。该模型能够将图像中的文档内容转换为结构化的文本格式,支持多模态输入处理。
RedHatAI
这是Qwen3-VL-235B-A22B-Instruct的量化版本,通过将权重和激活值量化为FP8数据类型,有效减少了磁盘大小和GPU内存需求约50%。支持文本、图像和视频输入,输出文本,适用于多种自然语言处理和多模态任务。
numind
NuExtract 2.0是由NuMind开发的专门用于结构化信息提取的多模态模型,支持文本和图像输入,具备多语言处理能力,能够根据JSON模板从输入内容中提取结构化信息。
NuExtract 2.0是NuMind公司专门为结构化信息提取任务训练的一系列多模态模型。该4B版本基于Qwen2.5-VL-3B-Instruct构建,支持文本和图像输入,具备多语言处理能力,能够从非结构化数据中提取结构化信息。
ssweens
Kimi-VL-A3B-Thinking-2506是月之暗面开发的多模态视觉语言模型,支持图像和文本的联合理解与推理,具备思维链推理能力,能够处理复杂的视觉语言任务。
NexaAI
OmniNeural是全球首个专门为神经处理单元(NPU)设计的全多模态模型,能够原生理解文本、图像和音频,可在PC、移动设备、汽车、物联网和机器人等多种设备上运行。
GLM-4.5V多模态服务器,提供图像处理、视觉查询和文件处理功能
GeminiMcpServer是一个连接LM Studio与Google Gemini API的MCP服务器,支持图像生成和多模态任务处理。