Best 音频驱动 AI Tools & Models - Premium 音频驱动 News

AI News

昆仑万维 SkyReels-V3开源，实现多模态视频生成技术突破

昆仑万维开源视频生成大模型SkyReels-V3，实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入，能精准保留主体身份与构图，推动视频生成技术进入高保真、多模态新阶段。

最高奖10万!京东首届 AI 影视大赛开赛:全网征集“马红红”创意视频

京东启动首届AI影视创作大赛，以年货节IP“马红红”、数字人男团E‘Core或指定商品形象为核心，面向全网征集AIGC原创短片。参赛视频需15秒以上，不限AI工具，涵盖画面生成、数字人驱动、音频合成等。作品鼓励AIGC创新，但非AI素材需持有商用授权。

10.4k 1 days ago

英伟达开源 Audio2Face 模型，AI 助力实时面部动画生成

英伟达开源生成式AI模型Audio2Face，提供算法、SDK及训练框架，助力游戏和3D应用开发。该模型通过分析音频音素与语调，实时驱动虚拟角色面部动作，实现精准口型同步和自然表情。适用于游戏、影视、客服等领域，提升虚拟角色交互体验。

10.4k 3 days ago

AI 深度伪造电话攻击激增，企业安全面临新挑战

调查显示，62%的网络安全负责人称其员工在过去一年遭遇AI驱动的攻击，主要包括提示注入和深度伪造音频或视频。其中，44%的企业报告了深度伪造音频电话攻击，6%的事件造成业务中断、财务或知识产权损失。

8.3k 5 days ago

AI Products

Seedance2.0

一款由字节跳动推出的 AI 视频生成器，支持多镜头叙事。

视频生成

9.3k

Seedance 2.0 AI

AI驱动的视频生成器，可从文本、图像生成2K视频，角色一致、音频同步

视频生成

14.1k

Infinite Talk AI

音频驱动的唇形同步生成器，可将图片转为无限长度生动视频，免费试用。

视频生成

7.7k

VeoE AI Video Agent

免费在线AI视频生成器，由Google Veo 3 API驱动，秒速生成带音频视频。

视频生成

5.6k

Models

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

Input tokens/M

$12.7

Output tokens/M

Context Length

百度蒸汽机2.0音视一体

Baidu

Input tokens/M

Output tokens/M

Context Length

Doubao-1.5-UI-TARS

Bytedance

$3.5

Input tokens/M

$12

Output tokens/M

128

Context Length

qwen-tts-realtime

Alibaba

$2.4

Input tokens/M

$12

Output tokens/M

Context Length

Gemma 3n E2B Instructed

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B Instructed LiteRT (Preview)

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B Instructed

Google

$140

Input tokens/M

$280

Output tokens/M

Context Length

Gemma 3n E4B Instructed LiteRT Preview

Google

Input tokens/M

Output tokens/M

Context Length

qwen-omni-turbo-realtime

Alibaba

Input tokens/M

$6.4

Output tokens/M

Context Length

o3

Openai

$14

Input tokens/M

$56

Output tokens/M

200

Context Length

Gemini 1.5 Flash 8B

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Gemma 2 9B

Google

Input tokens/M

Output tokens/M

Context Length

Gemini 1.5 Pro

Google

$17.5

Input tokens/M

$70

Output tokens/M

2.1k

Context Length

GPT-4

Openai

$210

Input tokens/M

$420

Output tokens/M

Context Length

MCP

Strudel Mcp Server

一个生产就绪的MCP服务器，通过Strudel.cc实现AI驱动的音乐生成，提供完整的浏览器自动化控制、实时音频分析和模式生成功能

typescript

2.5points

Mcp Transcribe

Transcribe MCP是一个AI驱动的自动化转录工具，支持快速高质量的多语言音频转文字，提供本地和云端服务，并可与多种AI助手集成。

typescript

8.4k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

昆仑万维 SkyReels-V3开源，实现多模态视频生成技术突破

最高奖10万!京东首届 AI 影视大赛开赛:全网征集“马红红”创意视频

英伟达开源 Audio2Face 模型，AI 助力实时面部动画生成

AI 深度伪造电话攻击激增，企业安全面临新挑战

AI Products

Seedance2.0

Seedance 2.0 AI

Infinite Talk AI

VeoE AI Video Agent

Models

Gemini 2.0 Flash-Lite

Gemini 2.5 Flash

wan2.5-i2v-preview

qwen3-omni-30b-a3b-captioner

百度蒸汽机2.0音视一体

Doubao-1.5-UI-TARS

qwen-tts-realtime

Gemma 3n E2B Instructed

Gemma 3n E4B

Gemma 3n E2B

Gemma 3n E2B Instructed LiteRT (Preview)

Gemma 3n E4B Instructed

Gemma 3n E4B Instructed LiteRT Preview

qwen-omni-turbo-realtime

o3

Gemini 1.5 Flash 8B

Gemma 2 9B

Gemini 1.5 Pro

GPT-4

Wan2.1 HuMo GGUF

Wan2_1 HuMo_17B GGUF

Wan2.2 S2V 14B

JoyVASA

JoyHallo V1

MCP

Strudel Mcp Server

Mcp Transcribe

AI News

昆仑万维 SkyReels-V3开源，实现多模态视频生成技术突破

最高奖10万!京东首届 AI 影视大赛开赛:全网征集“马红红”创意视频

​英伟达开源 Audio2Face 模型，AI 助力实时面部动画生成

​AI 深度伪造电话攻击激增，企业安全面临新挑战

AI Products

Seedance2.0

Seedance 2.0 AI

Infinite Talk AI

VeoE AI Video Agent

Models

Gemini 2.0 Flash-Lite

Gemini 2.5 Flash

wan2.5-i2v-preview

qwen3-omni-30b-a3b-captioner

百度蒸汽机2.0音视一体

Doubao-1.5-UI-TARS

qwen-tts-realtime

Gemma 3n E2B Instructed

Gemma 3n E4B

Gemma 3n E2B

Gemma 3n E2B Instructed LiteRT (Preview)

Gemma 3n E4B Instructed

Gemma 3n E4B Instructed LiteRT Preview

qwen-omni-turbo-realtime

o3

Gemini 1.5 Flash 8B

Gemma 2 9B

Gemini 1.5 Pro

GPT-4

Wan2.1 HuMo GGUF

Wan2_1 HuMo_17B GGUF

Wan2.2 S2V 14B

JoyVASA

JoyHallo V1

MCP

Strudel Mcp Server

Mcp Transcribe

英伟达开源 Audio2Face 模型，AI 助力实时面部动画生成

AI 深度伪造电话攻击激增，企业安全面临新挑战