Best 多模态图像处理 AI Tools & Models - Premium 多模态图像处理 News

AI News

百度重磅推出文心 5.0 大模型，2.4 万亿参数引领全模态 AI 新纪元！

百度发布文心5.0全模态大模型，参数达2.4万亿，具备强大语言理解与生成能力。其采用全模态统一建模技术，可同时处理文本、图像、音频和视频，实现多类型数据的融合优化，标志着AI领域的重要进展。

谷歌搜索迎来 AI 新革命：Gemini 3 与 Nano Banana Pro 正式登陆 120 国，先向 Pro/Ultra 订阅者开放

谷歌于12月1日推出Gemini 3大模型，接入搜索AI模式，覆盖近120个国家地区，向AI Pro与Ultra订阅用户开放。同时上线Nano Banana Pro图像模型，支持2K/4K分辨率、精准文本渲染及专业级摄影控制，定价1080p为0.139美元、4K为0.24美元。Gemini 3采用原生多模态架构，统一处理文本、图像、音频和视频。

11.4k 6 hours ago

昆仑元 AI 推出全新全模态融合模型 BaiZe-Omni-14b-a2b，推动 AI 技术新进展

昆仑元AI在2025世界计算大会上发布全模态融合模型BaiZe-Omni-14b-a2b，基于昇腾平台，具备文本、音频、图像和视频的理解与生成能力。采用模态解耦编码、统一跨模态融合和双分支功能设计等创新架构，推动多模态应用发展。模型流程包括输入处理、模态适配、融合、核心功能和输出解码。

12.5k 4 hours ago

NotebookLM升级支持图像导入板书秒变可检索知识库

谷歌推出NotebookLM图像识别功能，支持上传板书、教材或表格图片，自动完成文字识别与语义分析，用户可直接用自然语言检索图片内容。该功能全平台免费，即将增加本地处理选项保护隐私。系统采用多模态技术，能区分手写与印刷体、解析表格结构，并与现有笔记智能关联。

21.2k 1 hours ago

AI Products

InternVL3

InternVL3开源：7种尺寸覆盖文、图、视频处理，多模态能力扩展至工业图像分析

AI模型

13.5k

Magma-8B

Magma-8B 是微软推出的一款多模态 AI 模型，能够处理图像和文本输入并生成文本输出。

AI模型

11.3k

SmolVLM-256M-Instruct

SmolVLM-256M 是世界上最小的多模态模型，可高效处理图像和文本输入并生成文本输出。

AI模型

SmolVLM-500M-Instruct

SmolVLM-500M 是一个轻量级多模态模型，能够处理图像和文本输入并生成文本输出。

AI模型

9.4k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

MCP

Multimodel MCP

GLM-4.5V多模态服务器，提供图像处理、视觉查询和文件处理功能

typescript

9.4k

2.0points

Geminimcpserver

GeminiMcpServer是一个连接LM Studio与Google Gemini API的MCP服务器，支持图像生成和多模态任务处理。

javascript

12.4k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

百度重磅推出文心 5.0 大模型，2.4 万亿参数引领全模态 AI 新纪元！

谷歌搜索迎来 AI 新革命：Gemini 3 与 Nano Banana Pro 正式登陆 120 国，先向 Pro/Ultra 订阅者开放

​昆仑元 AI 推出全新全模态融合模型 BaiZe-Omni-14b-a2b，推动 AI 技术新进展

NotebookLM升级支持图像导入 板书秒变可检索知识库

AI Products

InternVL3

Magma-8B

SmolVLM-256M-Instruct

SmolVLM-500M-Instruct

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

wan2.5-i2i-preview

Qianfan-Lightning

qwen3-vl-235b-a22b-thinking

qwen3-max

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Qwen3 VL 4B Instruct 4bit GPTQ

Sarashina2.2 Vision 3b

Huihui Mistral Small 3.2 24B Instruct 2506 Abliterated V2 GGUF

Huihui Qwen3 VL 4B Instruct Abliterated GGUF

Gemma 3 27b It Qat Mlx Mxfp4

Dots.ocr Base Fix

Qwen3 VL 30B A3B Instruct GGUF

NVIDIA Nemotron Nano 12B V2 VL NVFP4 QAD

NVIDIA Nemotron Nano 12B V2 VL FP8

LFM2 VL 3B

Qwen3 VL 32B Thinking 4bit

Qwen3 VL 32B Instruct MLX 4bit

Qwen3 VL 30B A3B Instruct AWQ

Qwen3 VL 8B Instruct MLX 8bit

Granite Docling 258M ONNX

Qwen3 VL 235B A22B Instruct FP8 Block

NuExtract 2.0 8B GGUF

NuExtract 2.0 4B GGUF

Kimi VL A3B Thinking 2506 GGUF

OmniNeural 4B

MCP

Multimodel MCP

Geminimcpserver

昆仑元 AI 推出全新全模态融合模型 BaiZe-Omni-14b-a2b，推动 AI 技术新进展

NotebookLM升级支持图像导入板书秒变可检索知识库