Best 音频统一生成模型 AI Tools & Models - Premium 音频统一生成模型 News

AI News

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0，在视觉语言理解、语音生成、图像处理等多项基准测试中表现优异，部分指标超越Gemini2.5Pro。该模型首创全场景音频统一生成能力，支持在同一条音轨中生成语音、音效和音乐，用户通过自然语言指令即可调整音色、语速等参数。

14.1k 47 minutes ago

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

百度重磅推出文心 5.0 大模型，2.4 万亿参数引领全模态 AI 新纪元！

百度发布文心5.0全模态大模型，参数达2.4万亿，具备强大语言理解与生成能力。其采用全模态统一建模技术，可同时处理文本、图像、音频和视频，实现多类型数据的融合优化，标志着AI领域的重要进展。

15.7k yesterday

Wan2.5-Preview 发布，实现多模态输入与电影级视频同步生成

Wan2.5-Preview正式发布，这款AI模型通过革命性架构重塑视觉生成。其核心突破在于多模态处理、视频生成和图像编辑，采用统一框架实现文本、图像、视频和音频的灵活输入输出。通过联合训练，模型强化模态对齐，提升生成能力。

14.7k 19 hours ago

开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

阶跃星辰发布开源语音大模型Step-Audio2mini，在国际基准测试中获SOTA成绩。该模型统一音频推理与生成，在语音理解、跨语言翻译和情感解析等场景表现优异，具备强大的多模态音频能力。

11.2k 5 days ago

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

百度重磅推出文心 5.0 大模型，2.4 万亿参数引领全模态 AI 新纪元！

Wan2.5-Preview 发布，实现多模态输入与电影级视频同步生成

开源语音大模型 “Step-Audio 2 mini” 发布！听得清楚、说得自然

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

qwen-image-edit

AudioX

InspireMusic Base 24kHz

InspireMusic 1.5B 24kHz