Best 高保真音频 AI Tools & Models - Premium 高保真音频 News

AI News

昆仑万维 SkyReels-V3开源，实现多模态视频生成技术突破

昆仑万维开源视频生成大模型SkyReels-V3，实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入，能精准保留主体身份与构图，推动视频生成技术进入高保真、多模态新阶段。

13.5k 16 hours ago

突破技术瓶颈：MiniMax Music 2.5 音乐大模型正式发布

MiniMax发布新一代音乐大模型Music2.5，通过技术创新显著提升AI音乐的专业性与听感。模型重点突破两大核心技术：段落级强控制，精准把握音乐结构，使乐曲逻辑更严密；物理级高保真，大幅提升音频质量。

11.2k 6 hours ago

ElevenLabs 音效模型更新至版本2:支持长片段、无缝循环和高保真音频

ElevenLabs升级AI音效模型至版本2，支持生成最长30秒音频，新增无缝循环功能，采样率提升至48kHz，显著增强音效质量和专业适用性。

9.6k 02-02

阿里开源ThinkSound：AI自动为视频加音效，影视与游戏创作迎来大变革！

阿里巴巴开源音频生成模型ThinkSound，支持视频、文本、音频多模态输入，能自动生成与画面高度匹配的高保真音效。该模型采用链式推理技术，实现音画精准同步，适用于影视、游戏等领域。作为开源项目，ThinkSound降低了音效创作门槛，开发者可通过多个平台免费获取。这是阿里在多模态AI领域的最新突破，将推动音效生成技术发展。

10.4k yesterday

AI Products

Lyria2

Lyria 2 是一款高保真音乐生成模型。

音乐生成

9.6k

GaussianSpeech

音频驱动的高保真3D人头化身合成技术

视频生成

10.3k

MusicLM

生成高保真音乐的文本到音频模型

AI音乐生成

11.5k

Models

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

Input tokens/M

$12.7

Output tokens/M

Context Length

百度蒸汽机2.0音视一体

Baidu

Input tokens/M

Output tokens/M

Context Length

qwen-tts-realtime

Alibaba

$2.4

Input tokens/M

$12

Output tokens/M

Context Length

Gemma 3n E2B Instructed

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B Instructed LiteRT (Preview)

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B Instructed LiteRT Preview

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B Instructed

Google

$140

Input tokens/M

$280

Output tokens/M

Context Length

qwen-omni-turbo-realtime

Alibaba

Input tokens/M

$6.4

Output tokens/M

Context Length

Gemini 1.5 Flash 8B

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Gemini 1.5 Pro

Google

$17.5

Input tokens/M

$70

Output tokens/M

2.1k

Context Length

GPT-4

Openai

$210

Input tokens/M

$420

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

昆仑万维 SkyReels-V3开源，实现多模态视频生成技术突破

突破技术瓶颈：MiniMax Music 2.5 音乐大模型正式发布

ElevenLabs 音效模型更新至版本2:支持长片段、无缝循环和高保真音频

阿里开源ThinkSound：AI自动为视频加音效，影视与游戏创作迎来大变革！

AI Products

Lyria2

GaussianSpeech

MusicLM

Models

Gemini 2.0 Flash-Lite

Gemini 2.5 Flash

wan2.5-i2v-preview

qwen3-omni-30b-a3b-captioner

百度蒸汽机2.0音视一体

qwen-tts-realtime

Gemma 3n E2B Instructed

Gemma 3n E2B

Gemma 3n E4B

Gemma 3n E2B Instructed LiteRT (Preview)

Gemma 3n E4B Instructed LiteRT Preview

Gemma 3n E4B Instructed

qwen-omni-turbo-realtime

Gemini 1.5 Flash 8B

Gemini 1.5 Pro

GPT-4

Kani Tts 400m Es

Kani Tts 400m Ar

Kani Tts 400m En

Kani Tts 400m 0.3 Pt

Kani Tts 370m

Kani Tts 450m 0.2 Pt

Bambara Tts

Bigvgan_base_22khz_80band

Encodec_32khz

Encodec_48khz

Encodec_24khz