Best 多模态 AI Tools & Models - Premium 多模态 News

AI News

穿越千年的“AI 导游”：全球首个多模态文旅大模型在西安开启规模化应用

2026年6月29日，全球首个商用多模态文旅大模型“博观”在西安规模化应用。由陕文投与华为联合研发，专攻文化保护传承，依托1.2PB珍贵数据进行训练，让历史文化实现可触可感的智慧对话式体验。

11.3k 3 minutes ago

坐镇 AI 技术巅峰：DeepMind CEO 强调团队领先地位，倡导多模态与安全并重

哈萨比斯在戛纳广告节上回应技术瓶颈质疑，称DeepMind仍拥有最强AI团队。他认为，通向通用人工智能远非单纯扩大语言模型，核心在于整合推理、规划等高阶思维，并强调需肩负行业责任。

5.6k 3 minutes ago

OceanBase发布湖库一体AI数据库:让Agent真正“读懂”企业

大模型与算力快速突破，但企业AI落地价值未达预期，业界焦点正从模型转向数据。OceanBase发布湖库一体AI数据库，融合数据湖海量存储、数据库事务分析及多模态处理，构建强一致数据底座，为AI Agent提供高效支撑。

11.4k 22 minutes ago

商汤科技秘密研发多模态模型“U1Pro”:由林达华牵头，预计7月启动内测对标OpenAI

商汤科技正秘密研发多模态大模型“U1Pro”，面向设计场景，由首席科学家林达华牵头。该模型隶属“日日新”家族，目标对标OpenAI的GPT-Image2，强调长程逻辑与思考能力，预计7月启动内测并商用。

11.7k 1 hours ago

AI Products

Camika

AI驱动的多模态内容创作平台，支持漫画、漫剧、MV等创作。

AI设计工具

Seedance 2.5 AI

Seedance 2.5 是一款支持多模态输入、可生成带原生同步音效的 4K 超清 AI 视频生成器。

视频生成

3.6k

Agnes AI

Agnes AI是AI网关、免费API平台，提供多模态AI模型与应用。

API服务

5.2k

HiAPI

一站式多模态AI API平台，单个密钥即可调用图像、视频、音乐及文本等前沿大模型。

API服务

7.2k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

MCP

Aistudio Mcp Server

AI Studio MCP Server是一个集成Google AI Studio/Gemini API的模型上下文协议服务器，提供支持文件、对话历史和系统提示的内容生成功能。

typescript

13.6k

2.5points

MCPollinations

MCPollinations是一个基于Model Context Protocol（MCP）的多模态AI服务，支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务，兼容多种AI模型，并支持图像保存和Base64编码返回。

javascript

11.7k

2.5points

Pixeltable Mcp Server

Pixeltable的多模态模型上下文协议服务器集合，提供音频、视频、图像和文档的索引与查询功能

python

10.7k

2.5points

Websearchmcp

联网搜索MCP是基于腾讯云联网搜索API封装的服务，提供毫秒级响应、分钟级更新的智能搜索能力，支持自然结果检索、多模态VR卡等多种功能，帮助开发者快速集成互联网搜索能力。

11.9k

2.5points

Mcp Image Recognition

一个提供图像识别功能的MCP服务器，支持Anthropic和OpenAI的视觉API，具备图像描述、多格式支持、可配置主备服务商及OCR文本提取功能。

python

16.3k

2.5points

Mcp Lwh

MCP服务工具集合，提供Hugging Face和Dify的AI服务API调用功能，支持多种NLP、CV和语音处理任务。

typescript

11.9k

2.5points

Ai Vision Mcp

一个基于Google Gemini和Vertex AI的AI视觉分析MCP服务器，支持图像和视频的多模态分析，提供对象检测、图像比较等功能，可集成到多种MCP客户端中。

typescript

9.8k

2.5points

Gemini Media Analysis

一个基于Google Gemini AI的MCP服务器，提供图像、音频和视频识别功能，支持多种传输方式和客户端集成。

typescript

10k

2.5points

Context_engineering_mcp

Context Engineering MCP平台是一个AI上下文管理与优化平台，通过系统化的方法设计、管理和优化AI模型的输入信息，实现提示工程的工程化。平台提供智能分析引擎、优化算法、模板管理等功能，显著提升AI响应质量、降低API成本，并支持多模态内容处理。

python

10.7k

2.5points

Pollinations Multimodal

一个基于Pollinations API的多模态MCP服务器，支持生成图像、文本和音频内容

javascript

8.9k

2.5points

Ollama Mcp Server

Ollama MCP Server是一个连接Ollama本地大语言模型和模型上下文协议(MCP)的桥梁工具，提供完整的API集成、模型管理和执行功能，支持OpenAI兼容的聊天接口和视觉多模态模型。

typescript

14.4k

2.5points

Frame0 Mcp Server

Frame0 MCP Server是一个为Frame0线框图工具提供的多模态控制协议服务，支持通过自然语言指令创建和修改线框图。

typescript

10.1k

2.5points

DataBridge

Morphik MCP是一个多模态数据库交互协议服务器，支持文档管理、检索和文件系统操作

typescript

10.1k

2.5points

Bocha Search

博查是一个专为AI设计的搜索引擎，提供高质量的世界知识检索服务。

python

14.9k

2.5points

RunwayML + Luma AI

一个集成RunwayML和Luma AI API的多功能MCP服务器，支持视频/图像生成及处理任务

typescript

11.7k

2.5points

Mcp Portal

MCP门户是Model Context Protocol的官方社区平台，提供文档、实践指南、服务器实现、工具集成等资源，支持AI模型通过MCP协议访问外部工具，涵盖从数据库连接到多模态应用等丰富场景。

javascript

11.2k

2.5points

Bocha Search Mcp

博查是一个专为AI设计的搜索引擎，提供全网近百亿网页和生态内容的高质量搜索服务，支持天气、新闻、百科等多种垂直领域结构化数据，适用于各类AI应用。

python

18.6k

2.5points

Openrouter Mcp Multimodal

OpenRouter MCP多模态服务器是一个通过OpenRouter.ai提供文本聊天和图像分析功能的协议服务器，支持多种模型选择和性能优化。

typescript

10.4k

2.5points

1lc

基于大模型的智能对话机器人项目，支持多平台接入和多种AI模型，具备文本、语音、图像处理及插件扩展能力，可定制企业AI应用。

python

9.5k

2.0points

Mac Volume Controller

基于Google Gemini多模态API的增强版网页控制台，新增工具调用功能

typescript

8.9k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

穿越千年的“AI 导游”：全球首个多模态文旅大模型在西安开启规模化应用

坐镇 AI 技术巅峰：DeepMind CEO 强调团队领先地位，倡导多模态与安全并重

OceanBase发布湖库一体AI数据库:让Agent真正“读懂”企业

商汤科技秘密研发多模态模型“U1Pro”:由林达华牵头，预计7月启动内测对标OpenAI

AI Products

Camika

Seedance 2.5 AI

Agnes AI

HiAPI

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Tomoro Colqwen3 Embed 4b

Wan2.2 I2V A14B Diffusers

Qwen3 VL 4B Thinking Gguf

Gemma 3n E4B It Heretic GGUF

Qwen3 VL 4B Instruct 4bit GPTQ

Gemma 3 12b It Qat Mlx Mxfp4

OpenMMReasoner ColdStart

OpenMMReasoner RL

Sarashina2.2 Vision 3b

HunyuanOCR

SenseNova SI 1.1 InternVL3 2B

ERNIE 4.5 VL 28B A3B Thinking AWQ 8bit

SenseNova SI 1.1 InternVL3 8B

Moondream3 Preview Hf

Uni MoE 2.0 Omni

Qwen3 VL 12B Thinking Brainstorm20x NEO MAX GGUF

Vae Lyra

Nutrient Gram Qwen 3 Vl 2b

SenseNova SI InternVL3 8B

Qwen3 VL 30B A3B Instruct Q8_0 GGUF

MCP

Aistudio Mcp Server

MCPollinations

Pixeltable Mcp Server

Websearchmcp

Mcp Image Recognition

Mcp Lwh

Ai Vision Mcp

Gemini Media Analysis

Context_engineering_mcp

Pollinations Multimodal

Ollama Mcp Server

Frame0 Mcp Server

DataBridge

Bocha Search

RunwayML + Luma AI

Mcp Portal

Bocha Search Mcp

Openrouter Mcp Multimodal

1lc

Mac Volume Controller