Best 多模态融合 AI Tools & Models - Premium 多模态融合 News

AI News

百度重磅推出文心 5.0 大模型，2.4 万亿参数引领全模态 AI 新纪元！

百度发布文心5.0全模态大模型，参数达2.4万亿，具备强大语言理解与生成能力。其采用全模态统一建模技术，可同时处理文本、图像、音频和视频，实现多类型数据的融合优化，标志着AI领域的重要进展。

12.8k 59 minutes ago

苹果发布多模态 AI 新宠 “Manzano”：视觉与创意的完美融合

苹果最新发布的多模态AI模型“Manzano”，成功将视觉识别与文本生成图像功能结合，实现“双修”能力。该模型不仅能精准理解图像内容，还能根据文本生成高质量图片，标志着AI技术的重要突破，有望满足行业对多功能模型的需求。

9.9k 7 hours ago

打破算力垄断：智谱联合华为发布首个全流程国产化多模态大模型 GLM-Image

智谱联合华为开源图像生成模型GLM-Image，这是首个在国产芯片上完成全流程训练的SOTA多模态模型。其创新采用“自回归+扩散解码器”混合架构，实现了图像生成与语言模型的深度融合，在知识密集型任务中表现出色，能精准理解全局指令。

10.7k 5 hours ago

阿里云推多模态交互开发套件！集成通义千问、万相、百聆，赋能AI眼镜、机器人等智能硬件

阿里云发布多模态交互开发套件，深度融合通义千问三大基础模型，预置多场景AI Agent与MCP，为智能硬件提供“开箱即用”的AI能力，降低智能化门槛，赋能AI眼镜、学习机等终端设备。

12.4k yesterday

AI Products

DeepSeek-VL2

先进的多模态理解模型，融合视觉与语言能力。

AI模型

13.2k

InternVL2_5-4B

多模态大型语言模型，融合视觉与语言理解。

AI模型

7.3k

InternVL2_5-26B

多模态大型语言模型，融合视觉与语言理解。

AI模型

10.6k

Spirit LM

多模态语言模型，融合文本和语音

AI模型

10.4k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

百度重磅推出文心 5.0 大模型，2.4 万亿参数引领全模态 AI 新纪元！

苹果发布多模态 AI 新宠 “Manzano”：视觉与创意的完美融合

​打破算力垄断：智谱联合华为发布首个全流程国产化多模态大模型 GLM-Image

阿里云推多模态交互开发套件！集成通义千问、万相、百聆，赋能AI眼镜、机器人等智能硬件

AI Products

DeepSeek-VL2

InternVL2_5-4B

InternVL2_5-26B

Spirit LM

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

Qianfan-Lightning

qwen3-max

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Wan2.2 I2V A14B Diffusers

Vae Lyra

Qwen3 VL 2B Instruct GGUF

Qwen3 VL 30B A3B Instruct GGUF

Qwen3 VL 4B Instruct NPU

FuseLIP B CC12M MM

SkyReels V2 I2V 14B 720P

Llama 4 Scout 17B 4E Instruct

ReT CLIP ViT L 14

Phi 4 Multimodal Instruct

Phi 4 Multimodal Instruct

ViTucano 2b8 V1

Eagle X4 8B Plus

Chameleon 30b

Llama3 Mova 8b

Chameleon 7b

Moondream1

NousResearch_Nous Hermes 2 Vision GGUF

Mustango

Llava Roco 8bit

打破算力垄断：智谱联合华为发布首个全流程国产化多模态大模型 GLM-Image