Best 多模态生成与理解模型 AI Tools & Models - Premium 多模态生成与理解模型 News

AI News

百度重磅推出文心 5.0 大模型，2.4 万亿参数引领全模态 AI 新纪元！

百度发布文心5.0全模态大模型，参数达2.4万亿，具备强大语言理解与生成能力。其采用全模态统一建模技术，可同时处理文本、图像、音频和视频，实现多类型数据的融合优化，标志着AI领域的重要进展。

15.2k 7 hours ago

苹果发布多模态新模型 Manzano:打破“看图”与“绘图”的界限

苹果推出多模态模型Manzano，通过创新的“双修”架构，解决了AI领域长期存在的视觉理解与图像生成难以兼顾的难题。

11.5k 1 hours ago

苹果发布多模态 AI 新宠 “Manzano”：视觉与创意的完美融合

苹果最新发布的多模态AI模型“Manzano”，成功将视觉识别与文本生成图像功能结合，实现“双修”能力。该模型不仅能精准理解图像内容，还能根据文本生成高质量图片，标志着AI技术的重要突破，有望满足行业对多功能模型的需求。

10.4k 9 hours ago

打破算力垄断：智谱联合华为发布首个全流程国产化多模态大模型 GLM-Image

智谱联合华为开源图像生成模型GLM-Image，这是首个在国产芯片上完成全流程训练的SOTA多模态模型。其创新采用“自回归+扩散解码器”混合架构，实现了图像生成与语言模型的深度融合，在知识密集型任务中表现出色，能精准理解全局指令。

12.2k 13 hours ago

AI Products

Mini-Gemini

多模态AI模型，图像理解与生成兼备

AI图像生成

17.7k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

百度重磅推出文心 5.0 大模型，2.4 万亿参数引领全模态 AI 新纪元！

​苹果发布多模态新模型 Manzano:打破“看图”与“绘图”的界限

苹果发布多模态 AI 新宠 “Manzano”：视觉与创意的完美融合

​打破算力垄断：智谱联合华为发布首个全流程国产化多模态大模型 GLM-Image

AI Products

Mini-Gemini

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

Qianfan-Lightning

qwen3-max

qwen-image-edit

Qwen3 VL 2B Thinking MLX 8bit

Qwen3 VL 30B A3B Instruct GGUF

Qwen3 VL 2B Instruct GGUF

Qwen3 VL 30B A3B Instruct GGUF

Qwen3 VL 2B Instruct

Qwen3 VL 8B Instruct MLX 4bit

Ming UniVision 16B A3B

InternVL3_5 38B Q8_0 GGUF

Gemma 3 270m It GGUF

Gemma 3 270m

Gemma 3 270m It Qat GGUF

Gemma 3 270m It

MiMo VL 7B RL 2508 Q6_K GGUF

ERNIE 4.5 300B A47B PT GGUF

Bytedance_BAGEL 7B MoT INT8

Gemma 3 12b It GGUF Q8_0

Gemma 3 4b It Qat

Meta Llama_Llama 4 Maverick 17B 128E Instruct

Gemma 3 4b Pt

Qwen2.5 VL 72B Instruct GGUF

苹果发布多模态新模型 Manzano:打破“看图”与“绘图”的界限

打破算力垄断：智谱联合华为发布首个全流程国产化多模态大模型 GLM-Image