最好的多模态模型 AI工具模型_精选多模态模型资讯

AI资讯

英伟达开源 OmniVinci 全模态理解模型，训练数据仅为 1/6

英伟达发布OmniVinci全模态理解模型，在多项基准测试中领先顶尖模型19.05分。该模型仅用0.2万亿训练Token，数据效率达竞争对手六倍，旨在实现视觉、音频和文本的统一理解，推动机器多模态认知能力发展。

8.5k 14 分钟前

英伟达推出全模态理解模型 OmniVinci，刷新 SOTA 高出19.05分

英伟达发布全模态理解模型OmniVinci，在基准测试中比顶尖模型高出19.05分，仅用1/6训练数据就实现卓越性能。该模型旨在让AI系统同时理解视觉、音频和文本，模拟人类多感官感知世界。

10k 4 小时前

高通发布新一代 AI 芯片，挑战英伟达股价大涨 20%

高通发布AI200和AI250芯片挑战英伟达，股价涨超20%。AI200专为AI推理设计，支持768GB内存，旨在降低总成本并提升性能，适用于大型语言和多模态模型推理。

8.1k 1 小时前

巨量引擎亮出AI治理“利剑”：自研多模态大模型10分钟审90%广告，单季拦截84万违规素材

巨量引擎推出自研AI广告治理大模型，通过"全链路治理"框架和"以AI治AI"策略应对AI生成内容引发的虚假宣传等风险。该多模态模型显著提升审核效率，90%广告素材可在10分钟内完成智能审核，大幅超越人工处理速度。

7.6k 6 小时前

AI产品

Dreamomni2

统一的多模态AI，支持基于指令的图像编辑与生成，超越商业模型。

图片生成

6.4k

Grok 4

Grok 4是xAI推出的革命性AI模型，具备先进的推理能力、多模态功能和专业编码特性。

AI模型

12.8k

OmniGen2

一个强大的统一多模态模型，支持文本到图像生成及图像编辑。

图片生成

10.8k

Bagel

BAGEL是一款开源的统一多模态模型，您可以在任何地方进行微调、精简和部署。

AI模型

10.3k

模型

Grok 4

xai

$21.6

输入tokens/百万

$108

输出tokens/百万

256k

上下文长度

Gemini 2.5 Pro

google

输入tokens/百万

$72

输出tokens/百万

上下文长度

o3-mini

openai

$7.92

输入tokens/百万

$31.68

输出tokens/百万

200k

上下文长度

Gemini 2.5 Flash Preview (Reasoning)

google

$2.16

输入tokens/百万

$18

输出tokens/百万

上下文长度

Gemini 2.5 Flash

google

$2.16

输入tokens/百万

$18

输出tokens/百万

上下文长度

ERNIE-4.5-Turbo-128K

baidu

输入tokens/百万

$16

输出tokens/百万

128k

上下文长度

Llama 4 Maverick

GPT-4o (March 2025, chatgpt-4o-latest)

openai

$18

输入tokens/百万

$72

输出tokens/百万

128k

上下文长度

Gemini 2.5 Flash Preview

google

$2.16

输入tokens/百万

$18

输出tokens/百万

上下文长度

Hunyuan-Vision

tencent

$18

输入tokens/百万

$18

输出tokens/百万

32k

上下文长度

Gemini 2.0 Flash (Feb '25)

google

$0.72

输入tokens/百万

$2.88

输出tokens/百万

上下文长度

Reka Flash 3

reka-ai

输入tokens/百万

输出tokens/百万

128k

上下文长度

Claude Opus 4.1

anthropic

$108

输入tokens/百万

$540

输出tokens/百万

200k

上下文长度

Gemini 2.0 Flash (experimental)

google

$0.72

输入tokens/百万

$2.88

输出tokens/百万

上下文长度

Gemini 2.5 Flash-Lite

google

$0.72

输入tokens/百万

$2.88

输出tokens/百万

上下文长度

Hunyuan-TurboS-Vision

tencent

输入tokens/百万

输出tokens/百万

上下文长度

Gemini 1.5 Pro (Sep '24)

google

$18

输入tokens/百万

$72

输出tokens/百万

上下文长度

SenseNova V6 Pro

sensetime

$2.8

输入tokens/百万

$8.4

输出tokens/百万

256k

上下文长度

SenseNova V6 Reasoner

sensetime

输入tokens/百万

$16

输出tokens/百万

200k

上下文长度

Llama 4 Scout

MCP

MCPollinations

MCPollinations是一个基于Model Context Protocol（MCP）的多模态AI服务，支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务，兼容多种AI模型，并支持图像保存和Base64编码返回。

javascript

7.1k

2.5分

Pixeltable Mcp Server

Pixeltable的多模态模型上下文协议服务器集合，提供音频、视频、图像和文档的索引与查询功能

python

6.5k

2.5分

Context_engineering_mcp

Context Engineering MCP平台是一个AI上下文管理与优化平台，通过系统化的方法设计、管理和优化AI模型的输入信息，实现提示工程的工程化。平台提供智能分析引擎、优化算法、模板管理等功能，显著提升AI响应质量、降低API成本，并支持多模态内容处理。

python

2.5分

Ollama Mcp Server

Ollama MCP Server是一个连接Ollama本地大语言模型和模型上下文协议(MCP)的桥梁工具，提供完整的API集成、模型管理和执行功能，支持OpenAI兼容的聊天接口和视觉多模态模型。

typescript

5.3k

2.5分

Mcp Portal

MCP门户是Model Context Protocol的官方社区平台，提供文档、实践指南、服务器实现、工具集成等资源，支持AI模型通过MCP协议访问外部工具，涵盖从数据库连接到多模态应用等丰富场景。

javascript

8.6k

2.5分

Openrouter Mcp Multimodal

OpenRouter MCP多模态服务器是一个通过OpenRouter.ai提供文本聊天和图像分析功能的协议服务器，支持多种模型选择和性能优化。

typescript

8.6k

2.5分

Mcp Server Pixeltable

该项目为Pixeltable的多模态模型上下文协议服务器集合，提供音频、视频、图像和文档的索引与查询服务，支持Docker本地部署。

python

9.4k

2.0分

Toolchat

ToolChat是一个通过MCP服务器与大型语言模型(LLM)交互的工具，支持配置多工具服务器并调用特定功能，还能处理多模态输入如图片和文档。

python

4.7k

2.0分

Rag Anything Mcp

RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器，支持多模态文档处理与查询，具备端到端文档解析、批量处理、高级查询及持久化存储等功能。

智启未来，您的人工智能解决方案智库

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图

AI资讯

​英伟达开源 OmniVinci 全模态理解模型，训练数据仅为 1/6

英伟达推出全模态理解模型 OmniVinci，刷新 SOTA 高出19.05分

​高通发布新一代 AI 芯片，挑战英伟达股价大涨 20%

巨量引擎亮出AI治理“利剑”：自研多模态大模型10分钟审90%广告，单季拦截84万违规素材

AI产品

Dreamomni2

Grok 4

OmniGen2

Bagel

模型

Grok 4

Gemini 2.5 Pro

o3-mini

Gemini 2.5 Flash Preview (Reasoning)

Gemini 2.5 Flash

ERNIE-4.5-Turbo-128K

Llama 4 Maverick

GPT-4o (March 2025, chatgpt-4o-latest)

Gemini 2.5 Flash Preview

Hunyuan-Vision

Gemini 2.0 Flash (Feb '25)

Reka Flash 3

Claude Opus 4.1

Gemini 2.0 Flash (experimental)

Gemini 2.5 Flash-Lite

Hunyuan-TurboS-Vision

Gemini 1.5 Pro (Sep '24)

SenseNova V6 Pro

SenseNova V6 Reasoner

Llama 4 Scout

LFM2 VL 3B

Pacific Prime

Qwen3 VL 2B Instruct

DreamOmni2 7.6B GGUF

Qwen3 VL 30B A3B Instruct AWQ

Qwen3 VL 8B Thinking AWQ 8bit

Qwen3 VL 4B Instruct 8bit

Qwen3 VL 8B Instruct MLX 4bit

Qwen3 VL 30B A3B Thinking Bf16

Qwen3vl 8B Thinking 4bit Mlx

Qwen3 Omni 30B A3B Thinking GGUF Q4_K_S

Bee 8B RL

Qwen3 VL 30B A3B Instruct 4bit

Granite Docling 258M ONNX

Apriel 1.5 15b Thinker AWQ 8bit

Apriel 1.5 15b Thinker GGUF

PaDT_Pro_3B

Ming UniVision 16B A3B

Huihui GLM 4.5V Abliterated Mxfp4

NuExtract 2.0 8B GGUF

MCP

MCPollinations

Pixeltable Mcp Server

Context_engineering_mcp

Ollama Mcp Server

Mcp Portal

Openrouter Mcp Multimodal

Mcp Server Pixeltable

Toolchat

Rag Anything Mcp

英伟达开源 OmniVinci 全模态理解模型，训练数据仅为 1/6

高通发布新一代 AI 芯片，挑战英伟达股价大涨 20%