最好的图像模型 AI工具模型_精选图像模型资讯

AI资讯

智源研究院推出全球最强多模态世界模型Emu3.5 一键预测真实世界“下一秒”！

北京智源人工智能研究院发布新一代多模态大模型Emu3.5，实现“世界级统一建模”，突破传统AI在物理理解和因果推理上的短板，让AI从单纯生成图像、文本进化到真正理解物理世界。

亚马逊发布 Nova 2 系列模型，AI 性能迎来新高度！

AWS在re:Invent2025大会上推出四款自研“Nova2”系列大模型，覆盖文本、图像、视频、语音多模态场景，并首次内置网页检索与代码执行能力，宣称在价格性能比上达到业界领先。其中，Nova2 Lite定位高性价比推理，在多项基准测试中表现优于Claude Haiku4.5和GPT-5Mini，成本仅为后者约50%；Nova2 Pro则面向复杂Agent任务。

11k 26 分钟前

亚马逊发布新款 Nova 2 模型家族，技术性能全面领先

亚马逊云科技在2025年re:Invent大会上推出Nova2模型系列，包括四款新模型，在推理、多模态、对话AI、代码生成和Agent任务方面具备领先性价比。其中，Nova2Lite专为日常负载设计，支持文本、图像和视频输入并生成文本输出，是一款快速经济的推理模型。

6.7k 12 小时前

商汤NEO开源:用1/10数据量媲美顶级多模态模型，终结"拼凑式"AI时代

商汤科技与南洋理工大学S-Lab联合发布开源多模态模型NEO，通过架构创新实现视觉语言深层统一。该模型仅需3.9亿图像文本数据（为同类模型1/10），即可达到顶尖视觉感知性能，无需海量数据或额外视觉编码器，在效率与通用性上取得突破。

7.7k 11 小时前

AI产品

Flux.2 Flex

基于Flux AI模型，可实现文本生成图像和图像编辑转换

图片生成

5.8k

Banana Pro

Banana Pro是下一代AI图像模型，支持文本转图像、高分辨率渲染和精确编辑

图片生成

5.2k

GPTunneL

GPTunneL提供多模型AI服务，可生成文本、图像等，支持多方式支付。

AI信息平台

5.8k

To3D.AI

先进AI技术，可将文字和图像瞬间转化为3D模型，无需3D建模经验。

3D建模

5.2k

模型

GPT-4.1 mini

Openai

$2.8

输入tokens/百万

$11.2

输出tokens/百万

上下文长度

Gemini 2.0 Flash-Lite

Google

$0.49

输入tokens/百万

$2.1

输出tokens/百万

上下文长度

Grok 4 Fast

Xai

$1.4

输入tokens/百万

$3.5

输出tokens/百万

上下文长度

o3-mini

Openai

$7.7

输入tokens/百万

$30.8

输出tokens/百万

200

上下文长度

GPT-5 Codex

Openai

输入tokens/百万

输出tokens/百万

上下文长度

Claude 3 Opus

Anthropic

$105

输入tokens/百万

$525

输出tokens/百万

200

上下文长度

Gemini 2.0 Flash

Google

$0.7

输入tokens/百万

$2.8

输出tokens/百万

上下文长度

Claude Haiku 4.5

Anthropic

输入tokens/百万

$35

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash

Google

$2.1

输入tokens/百万

$17.5

输出tokens/百万

上下文长度

Claude Sonnet 4.5

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Claude 3 Sonnet

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash-Lite

Google

$0.7

输入tokens/百万

$2.8

输出tokens/百万

上下文长度

qwen-image-plus

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen3-coder-plus

Alibaba

输入tokens/百万

$16

输出tokens/百万

上下文长度

qwen3-vl-plus

Alibaba

输入tokens/百万

$10

输出tokens/百万

256

上下文长度

qwen3-max

Alibaba

输入tokens/百万

$24

输出tokens/百万

256

上下文长度

qwen3-vl-235b-a22b-thinking

Alibaba

输入tokens/百万

$20

输出tokens/百万

上下文长度

wan2.5-i2i-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

Qianfan-Lightning

Baidu

输入tokens/百万

输出tokens/百万

128

上下文长度

qwen-image-edit

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

MCP

MiniMax

已认证

MiniMax官方模型上下文协议（MCP）服务器，支持文本转语音、视频/图像生成等API交互。

python

12.1k

4.0分

Mcp Hfspace

mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器，支持图像生成、语音处理、视觉模型等多种AI功能，简化了与Claude Desktop的集成。

typescript

7.1k

3.5分

Fal Mcp Server

AI视频生成MCP服务器，支持文本和图像输入生成动态视频，提供多种参数控制和模型选择。

typescript

10.4k

2.5分

Mcp Server Notifier

MCP Server Notifier 是一个轻量级通知服务，与模型上下文协议（MCP）集成，可在AI代理完成任务时发送Webhook通知。支持多种Webhook提供商（如Discord、Slack、Teams等），提供图像支持、多项目管理、自定义消息等功能，易于与AI工具（如Cursor）集成。

typescript

6.7k

2.5分

Mcp Veo2

该项目是一个基于Google Veo2模型的视频生成MCP服务器，支持通过文本提示或图像生成视频，并提供MCP资源访问功能。

typescript

9.4k

2.5分

Opencv Mcp Server

OpenCV MCP Server是一个基于Python的计算机视觉服务，通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具，包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。

python

10.5k

2.5分