Best 多模态音视频 AI Tools & Models - Premium 多模态音视频 News

AI News

阿里ATH事业群开放式世界模型“Happy Oyster”启动内测申请

阿里巴巴推出开放式世界模型Happy Oyster，支持多模态输入与音视频联合生成，专注于实时世界创建与交互，开启早期体验申请。

全面超越 Gemini-3.1Pro！Qwen3.5-Omni 震撼发布:215项 SOTA 开启全感官 AI 时代

通义实验室发布多模态大模型Qwen3.5-Omni，实现理解力、交互感和任务执行力的跨越式进化，推动AI从“屏幕助手”迈向“理解物理世界的智能体”。该模型采用原生“全模态”架构，能无缝处理文本、图像、音频和视频输入，在音视频分析、推理、对话及翻译测试中表现卓越。

25.4k 3 hours ago

全面超越 Gemini-3.1Pro！Qwen3.5-Omni 震撼发布:215项 SOTA 开启全感官 AI 时代

谷歌发布 Gemini Embedding2:原生多模态嵌入模型统一文本、图像与音视频语义空间

谷歌发布Gemini Embedding2多模态嵌入模型，可将文本、图像、视频、音频及PDF统一映射到同一语义空间，简化AI数据处理，提升多模态检索与理解能力。这标志着谷歌从单一文本嵌入迈向统一多模态语义建模。此前，谷歌曾推出支持百种语言的文本嵌入模型。

12.4k 2 days ago

谷歌发布 Gemini Embedding2:原生多模态嵌入模型统一文本、图像与音视频语义空间

Seedance 2.0 正式发布：统一多模态架构 5秒音画一体，直击工业级创作

字节跳动Seed团队发布新一代视频创作模型Seedance2.0，采用统一的多模态音视频联合生成架构，推动AI视频生成从“单点突破”迈向“全能协作”的工业级应用阶段。相比1.5版本，新模型在复杂交互与运动场景下的可用率显著提升，通过出色的物理还原能力，攻克了双人花滑、多人竞技等高难度动作生成难题。

25.4k 6 hours ago

Seedance 2.0 正式发布：统一多模态架构 5秒音画一体，直击工业级创作

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

阿里ATH事业群开放式世界模型“Happy Oyster”启动内测申请

全面超越 Gemini-3.1Pro！Qwen3.5-Omni 震撼发布:215项 SOTA 开启全感官 AI 时代

谷歌发布 Gemini Embedding2:原生多模态嵌入模型统一文本、图像与音视频语义空间

Seedance 2.0 正式发布：统一多模态架构 5秒音画一体，直击工业级创作

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

wan2.5-i2i-preview

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

ARC Qwen Video 7B