Best 多模态生成 AI Tools & Models - Premium 多模态生成 News

AI News

商汤发布原生理解生成统一模型 SenseNova U1 告别插件式AI

商汤科技于4月28日开源“日日新SenseNova U1”系列，这是一款“原生理解生成统一模型”，突破了传统多模态模型依赖不同模块“拼接”的局限，通过统一架构实现视觉与语言模块的深度融合，标志着国产AI在多模态领域的重要技术突破。

商汤科技开源日日新 SenseNova U1，实现多模态原生统一架构

商汤科技发布并开源日日新SenseNova U1系列模型，基于自研NEO-unify架构，实现多模态理解、推理与生成的深度统一，标志着从“集成式”向“原生统一”的跨越。该架构摒弃拼接式设计，去除视觉编码器和变分自编码器，提升了模型效率与性能。

10.7k 7 minutes ago

美图RoboNeo接入阿里HappyHorse模型，视频创作能力实现全面迭代

美图旗下AI Agent RoboNeo于4月28日接入阿里多模态视频生成模型HappyHorse，结合Seedance 2.0能力升级产品视频创作体验。此次迭代在连续镜头生成、声画同步及素材一致性基础上，拓展了创作维度。RoboNeo自2025年7月上线后全球表现强劲，获瑞银报告关注。

12.5k 17 minutes ago

阿里“神马”HappyHorse出圈！中文在线火速进场

阿里巴巴ATH创新事业部推出新一代多模态视频生成模型HappyHorse，已开启灰度测试。该模型在Arena.ai三大核心榜单（文生视频、图生视频、视频编辑）中表现优异，具备影视级画质与深度语义理解能力，支持1080P超高清输出，能精准驾驭港式风情、古装等多种视觉风格，成为全球AI视频领域的有力竞争者。

14.1k 3 hours ago

AI Products

Seedance 2 API

字节跳动Seedance 2.0 API，支持多模态输入生成视频，有原生音频等功能。

视频生成

Wan 2.7 AI

Wan 2.7是通用多模态AI视频生成平台，支持多信号控制与视频延续。

视频生成

6.1k

Ima Claw

Ima Studio的多模态AI平台，用文本提示生成图、视频和音频

AI设计工具

5.4k

Seedance2.love

Seedance 2.0可快速生成2K画质AI视频，支持多模态输入与编辑。

视频生成

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

MCP

MCPollinations

MCPollinations是一个基于Model Context Protocol（MCP）的多模态AI服务，支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务，兼容多种AI模型，并支持图像保存和Base64编码返回。

javascript

8.8k

2.5points

Pollinations Multimodal

一个基于Pollinations API的多模态MCP服务器，支持生成图像、文本和音频内容

javascript

10.4k

2.5points

Rag Anything Mcp

RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器，支持多模态文档处理与查询，具备端到端文档解析、批量处理、高级查询及持久化存储等功能。

python

9.8k

2.0points

Geminimcpserver

GeminiMcpServer是一个连接LM Studio与Google Gemini API的MCP服务器，支持图像生成和多模态任务处理。

javascript

15.4k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

商汤发布原生理解生成统一模型 SenseNova U1 告别插件式AI

商汤科技开源日日新 SenseNova U1，实现多模态原生统一架构

美图RoboNeo接入阿里HappyHorse模型，视频创作能力实现全面迭代

阿里“神马”HappyHorse出圈！中文在线火速进场

AI Products

Seedance 2 API

Wan 2.7 AI

Ima Claw

Seedance2.love

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

Qianfan-Lightning

qwen3-max

qwen-image-edit

Wan2.2 I2V A14B Diffusers

Qwen3 VL 4B Instruct 4bit GPTQ

Gemma 3 12b It Qat Mlx Mxfp4

Uni MoE 2.0 Omni

Qwen3 VL 12B Thinking Brainstorm20x NEO MAX GGUF

Nutrient Gram Qwen 3 Vl 2b

Qwen3 VL 30B A3B Instruct Q8_0 GGUF

Qwen3 VL 2B Thinking MLX 8bit

Emu3.5

Emu3.5 Image

Qwen3 VL 2B Instruct GGUF

Qwen3 VL 30B A3B Instruct GGUF

Qwen3 VL 2B Instruct GGUF

Gemma 3 27b It Qat Mlx Mxfp4

Dots.ocr Base Fix

Qwen3 VL 30B A3B Instruct GGUF

Qwen3 VL 32B Thinking 4bit

Qwen3 VL 2B Instruct

DreamOmni2 7.6B GGUF

Qwen_Qwen3 VL 4B Instruct GGUF

MCP

MCPollinations

Pollinations Multimodal

Rag Anything Mcp

Geminimcpserver