Best 音效生成模型 AI Tools & Models - Premium 音效生成模型 News

AI News

Google DeepMind 发布 Lyria 3 Pro：AI 音乐从"30秒试听"变成完整歌曲

Google DeepMind 新推出的 Lyria 3 Pro 模型将音乐生成时长从 30 秒大幅提升至 3 分钟，并新增“结构感知”能力，使模型能理解并生成包含前奏、主歌、副歌等完整结构的歌曲，突破了此前仅能生成背景音效的限制。

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0，在视觉语言理解、语音生成、图像处理等多项基准测试中表现优异，部分指标超越Gemini2.5Pro。该模型首创全场景音频统一生成能力，支持在同一条音轨中生成语音、音效和音乐，用户通过自然语言指令即可调整音色、语速等参数。

20.5k 59 minutes ago

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

豆包上线 Seedance 1.5 Pro，可直接生成有声视频

字节跳动推出“Seedance1.5Pro”音视频创作模型，现已上线豆包平台。该模型实现“文字-画面-声音”一体化生成，能深度理解文本意图，同步创作匹配的画面、音效与人物台词，有效避免音画脱节，并提升人物“开口说话”的自然度，让普通用户也能轻松制作有声视频。

23.7k 1 days ago

阿里万相2.6发布:支持“角色扮演”与多分镜控制，单次视频时长达15秒

阿里巴巴12月16日发布新一代万相2.6系列模型，针对影视制作和图像创作全面升级，号称“全球功能最全的视频生成模型”。该模型已上线阿里云百炼和官网，核心亮点包括国内首个“角色扮演”功能，并支持音画同步、多镜头生成及声音驱动等，在画质、音效等方面实现技术突破。

16.7k 15 hours ago

AI Products

Sora 2

最新视频生成模型，更真实、可控，支持同步对话与音效。

视频生成

15.2k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

MCP

MaxMSP MCP Server

该项目通过Model Context Protocol（MCP）让大型语言模型直接理解和生成Max音频处理软件中的音效模块，支持解释、修改和创建音效模块，并提供与LLM的交互界面。

javascript

11.5k

2.5points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

Google DeepMind 发布 Lyria 3 Pro：AI 音乐从"30秒试听"变成完整歌曲

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

豆包上线 Seedance 1.5 Pro，可直接生成有声视频

阿里万相2.6发布:支持“角色扮演”与多分镜控制，单次视频时长达15秒

AI Products

Sora 2

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

wan2.5-i2i-preview

qwen-image-edit

Handler

Audio Magnet Medium

Bark Small

Tango Full

Bark

Tango

MCP

MaxMSP MCP Server