Best 音频生成模型 AI Tools & Models - Premium 音频生成模型 News

AI News

OpenAI Sora应用限时开放:美国、加拿大、日本及韩国用户无需邀请码登录

OpenAI宣布Sora应用在美、加、日、韩取消邀请码限制，用户可直接登录。此举推动AI创意工具普及，标志从封闭测试转向广泛开放。Sora基于Sora2模型，支持文本或图片生成高质量带音频短视频，加速全球推广。

17.2k 1 hours ago

Adobe Firefly Image 5重磅升级：400万像素原生生成、AI音轨+自定义模型，创作者迎来“全栈式”AI创作时代

Adobe发布专业级AI图像生成模型Firefly Image5，实现从“够用”到专业级的质变。新功能包括原生400万像素输出、分层提示编辑、自定义艺术风格模型及AI语音配乐生成，打通图像、视频、音频的AI创作闭环，重新定义创意工作流。

11.9k 3 hours ago

Adobe Firefly Image 5重磅升级：400万像素原生生成、AI音轨+自定义模型，创作者迎来“全栈式”AI创作时代

AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

谷歌发布Veo 3.1视频生成模型，新增音频功能和精细化编辑能力，提升了视频的真实感与编辑控制粒度，同时优化了图像转视频质量。

23.9k 10 hours ago

AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

谷歌发布Veo 3.1视频生成模型：新增音频功能和精细化编辑能力

谷歌升级视频生成模型Veo3.1，提升音频输出、编辑控制精度和图像转视频质量，能生成更真实视频并精准响应指令。新增功能支持在视频中添加对象并自动匹配画面风格，即将在Flow工具中推出移除对象功能，增强编辑灵活性。

10.7k 3 days ago

AI Products

LTX

基于LTX 2模型，生成4K视频，音频同步，专业创作者适用。

视频生成

4.9k

Zarin

Zarin是首个开源AI平台，集成了200多个热门和最新的AI多模型，可生成图片、视频、音频、代码、学术论文等。

AI信息平台

7.9k

Kimi-Audio

Kimi-Audio 是一个开源音频基础模型，擅长音频理解与生成。

语音识别

13.4k

CSM 1B

CSM 1B 是一个由 Sesame 开发的文本到语音生成模型，可生成高质量的音频。

语音生成

13.5k

Models

GPT-4o (March 2025, chatgpt-4o-latest)

openai

$18

Input tokens/M

$72

Output tokens/M

128k

Context Length

Gemini 2.0 Flash (Feb '25)

google

$0.72

Input tokens/M

$2.88

Output tokens/M

Context Length

Gemini 2.0 Flash (experimental)

google

$0.72

Input tokens/M

$2.88

Output tokens/M

Context Length

GPT-4o (Nov '24)

openai

$18

Input tokens/M

$72

Output tokens/M

128k

Context Length

GPT-4o (May '24)

openai

Input tokens/M

Output tokens/M

128k

Context Length

GPT-4o (ChatGPT)

openai

$18

Input tokens/M

$72

Output tokens/M

128k

Context Length

Gemini 1.5 Flash (Sep '24)

google

$1.08

Input tokens/M

$4.32

Output tokens/M

Context Length

Gemini 1.5 Flash (May '24)

google

$1.08

Input tokens/M

$4.32

Output tokens/M

Context Length

Phi-4 Multimodal Instruct

azure

$0.36

Input tokens/M

$0.72

Output tokens/M

128k

Context Length

GPT-4o Realtime (Dec '24)

openai

$18

Input tokens/M

$72

Output tokens/M

128k

Context Length

MCP

MaxMSP MCP Server

该项目通过Model Context Protocol（MCP）让大型语言模型直接理解和生成Max音频处理软件中的音效模块，支持解释、修改和创建音效模块，并提供与LLM的交互界面。

javascript

7.7k

2.5points

MCPollinations

MCPollinations是一个基于Model Context Protocol（MCP）的多模态AI服务，支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务，兼容多种AI模型，并支持图像保存和Base64编码返回。

javascript

7.2k

2.5points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

OpenAI Sora应用限时开放:美国、加拿大、日本及韩国用户无需邀请码登录

Adobe Firefly Image 5重磅升级：400万像素原生生成、AI音轨+自定义模型，创作者迎来“全栈式”AI创作时代

AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

谷歌发布Veo 3.1视频生成模型：新增音频功能和精细化编辑能力

AI Products

LTX

Zarin

Kimi-Audio

CSM 1B

Models

GPT-4o (March 2025, chatgpt-4o-latest)

Gemini 2.0 Flash (Feb '25)

Gemini 2.0 Flash (experimental)

GPT-4o (Nov '24)

GPT-4o (May '24)

GPT-4o (ChatGPT)

Gemini 1.5 Flash (Sep '24)

Gemini 1.5 Flash (May '24)

Phi-4 Multimodal Instruct

GPT-4o Realtime (Dec '24)

SongBloom_long

Qwen3 Omni 30B A3B Captioner AWQ 4bit

Ovi

Kani Tts 450m 0.2 Pt

Cast 0.7b S2s

Midashenglm 7b 0804 Bf16

Step Audio 2 Mini

Wan2.2 S2V 14B

Gemma 3n E2B It Litert Preview GGUF

DeSTA2.5 Audio Llama 3.1 8B

Higgs Audio V2 Generation 3B Base

Qwen2.5 Omni 3B GGUF

OmniAvatar 14B

Qwen2.5 Omni 7B GGUF

Qwen2.5 Omni 3B GGUF

Csm 1b

Qwen2.5 Omni 7B GPTQ Int4

Qwen2.5 Omni 7B AWQ

Stable Audio Open Small

Ace Gguf

MCP

MaxMSP MCP Server

MCPollinations