Best 多模态生成AI AI Tools & Models - Premium 多模态生成AI News

AI News

AI日报：黑森林实验室放出Flux3；Claude Opus现已支持语音模式；快手入局AI互动内容赛道

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、黑森林实验室放出Flux3：首个原生生成音频的多模态基础模型，20秒音画同步一次成型黑森林实验室发布的Flux3多模态基础模型，首次实现了原生音频生成，并在音视频同步、图像生成和动作控制方面表现出色，展现了其在人工智能领域的领先地位。8、阿里开源0.8B文档解析模型OvisOCR2，端到端方案登顶OmniDocBench阿里开源的OvisOCR2模型在文档解析领域取得重大突破，以0.8B参数规模实现端到端解析，超越传统流水线方法，为RAG检索、智能问答和企业知识库提供高效支持。

11.8k 48 minutes ago

AI日报：黑森林实验室放出Flux3；Claude Opus现已支持语音模式；快手入局AI互动内容赛道

多模态AI思维导图工具GitMind推出终身订阅计划，支持多源资料秒级生成图表

GitMind推出多模态AI升级，联合StackCommerce以49.99美元提供终身订阅（原价169美元）。该工具聚焦解决手动绘制思维导图的痛点，整合多模态AI解析能力，可直接处理PDF、YouTube视频、截图等多种内容，实现智能知识整理。

12.9k 18 minutes ago

Google Vids引入Gemini Omni模型上传自拍+音频就能定制专属数字分身

谷歌在Sora可能退场之际，为Google Vids推出重磅更新：用户仅需上传自拍与语音，即可生成外貌声音高度还原的数字虚拟人，无需真人出镜便可完成视频讲解。同时，该功能与多模态模型Gemini深度整合，强化AI视频创作体验。

11.2k 1 hours ago

Google Vids引入Gemini Omni模型上传自拍+音频就能定制专属数字分身

AI日报：MiniMax Code 2.0桌面端发布；Kimi K3模型预热视频流出；通义千问正式接入苹果生态

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、灵光App“灵光圈”社区焕新:上线热榜、关注等功能，PC端支持导入文档及音视频素材灵光App对灵光圈社区进行功能升级，新增热榜、编辑精选和关注创作者等功能，同时在PC端支持多模态文件的上传与应用生成，提升了AI应用的发现效率和创作体验。8、OpenAI发布首款联名硬件CodexMicro键盘230美元还会发光OpenAI正式进军硬件领域，推出首款联名产品CodexMicro键盘，同时透露正在研发一款便携智能音箱，进一步展示其在AI硬件上的布局和野心。

20.7k 3 hours ago

AI日报：MiniMax Code 2.0桌面端发布；Kimi K3模型预热视频流出；通义千问正式接入苹果生态

AI Products

WorkBuddy

腾讯云代码助手推出的AI Agent办公工具，可自主规划交付多模态任务结果。

效率工具

7.7k

Seedance 2.5 tech

ByteDance推出的新一代多模态4K AI视频与图像生成与编辑平台。

视频生成

5.7k

Seedance 2.5 bingo

一款支持多模态输入、可单次生成30秒原生4K画质及同步音频的AI视频生成器。

视频生成

4.1k

Seedance 2.5 AI

Seedance 2.5 是一款支持多模态输入、可生成带原生同步音效的 4K 超清 AI 视频生成器。

视频生成

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

MCP

MCPollinations

MCPollinations是一个基于Model Context Protocol（MCP）的多模态AI服务，支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务，兼容多种AI模型，并支持图像保存和Base64编码返回。

javascript

11.1k

2.5points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

AI日报：黑森林实验室放出Flux3；Claude Opus现已支持语音模式；快手入局AI互动内容赛道

多模态AI思维导图工具GitMind推出终身订阅计划，支持多源资料秒级生成图表

Google Vids引入Gemini Omni模型上传自拍+音频就能定制专属数字分身

AI日报：MiniMax Code 2.0桌面端发布；Kimi K3模型预热视频流出；通义千问正式接入苹果生态

AI Products

WorkBuddy

Seedance 2.5 tech

Seedance 2.5 bingo

Seedance 2.5 AI

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

qwen-image-edit

Qwen3 VL 2B Instruct GGUF

Cosmos Reason1 7B

Meta Llama_Llama 4 Maverick 17B 128E Instruct

Magma 8B

Xgen Mm Phi3 Mini Instruct R V1

Uform3 Image Text Multilingual Base

Uform3 Image Text English Small

MCP

MCPollinations

AI News

AI日报：黑森林实验室放出Flux3；Claude Opus现已支持语音模式；快手入局AI互动内容赛道

多模态AI思维导图工具GitMind推出终身订阅计划，支持多源资料秒级生成图表

Google Vids引入Gemini Omni模型 上传自拍+音频就能定制专属数字分身

AI日报：MiniMax Code 2.0桌面端发布；Kimi K3模型预热视频流出；通义千问正式接入苹果生态

AI Products

WorkBuddy

Seedance 2.5 tech

Seedance 2.5 bingo

Seedance 2.5 AI

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

qwen-image-edit

Qwen3 VL 2B Instruct GGUF

Cosmos Reason1 7B

Meta Llama_Llama 4 Maverick 17B 128E Instruct

Magma 8B

Xgen Mm Phi3 Mini Instruct R V1

Uform3 Image Text Multilingual Base

Uform3 Image Text English Small

MCP

MCPollinations

Google Vids引入Gemini Omni模型上传自拍+音频就能定制专属数字分身