昆仑万维开源视频生成大模型SkyReels-V3,实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入,能精准保留主体身份与构图,推动视频生成技术进入高保真、多模态新阶段。
京东启动首届AI影视创作大赛,以年货节IP“马红红”、数字人男团E‘Core或指定商品形象为核心,面向全网征集AIGC原创短片。参赛视频需15秒以上,不限AI工具,涵盖画面生成、数字人驱动、音频合成等。作品鼓励AIGC创新,但非AI素材需持有商用授权。
英伟达开源生成式AI模型Audio2Face,提供算法、SDK及训练框架,助力游戏和3D应用开发。该模型通过分析音频音素与语调,实时驱动虚拟角色面部动作,实现精准口型同步和自然表情。适用于游戏、影视、客服等领域,提升虚拟角色交互体验。
调查显示,62%的网络安全负责人称其员工在过去一年遭遇AI驱动的攻击,主要包括提示注入和深度伪造音频或视频。其中,44%的企业报告了深度伪造音频电话攻击,6%的事件造成业务中断、财务或知识产权损失。
一款由字节跳动推出的 AI 视频生成器,支持多镜头叙事。
AI驱动的视频生成器,可从文本、图像生成2K视频,角色一致、音频同步
音频驱动的唇形同步生成器,可将图片转为无限长度生动视频,免费试用。
免费在线AI视频生成器,由Google Veo 3 API驱动,秒速生成带音频视频。
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
$17.5
Alibaba
-
$15.8
$12.7
64
Baidu
Bytedance
$3.5
$12
128
$2.4
8
$140
$280
32
$6
$6.4
Openai
$14
$56
200
$1
$70
2.1k
$210
$420
Alissonerdx
HuMo是一个统一的、以人为中心的视频生成框架,能够根据文本、图像和音频等多模态输入,生成高质量、细粒度且可控的人类视频。它支持强大的文本提示跟随、一致的主体保留以及同步的音频驱动运动。
VeryAladeen
HuMo是一个以人为中心的视频生成框架,能够利用文本、图像和音频等多模态输入生成高质量、细粒度且可控的人类视频,支持文本提示跟随、主体保留和音频驱动运动同步。
Wan-AI
Wan2.2-S2V-14B是一个专为音频驱动的电影级视频生成而设计的混合专家(MoE)模型。它能够根据输入的音频、参考图像和文本提示生成高质量的视频内容,支持480P和720P分辨率,并具备复杂运动生成和电影级美学效果。
jdh-algo
JoyVASA是一种基于扩散模型的音频驱动面部动画生成方法,能够生成面部动态和头部运动,支持多语言输入。
JoyHallo是一个专注于普通话的音频驱动人脸动画生成模型,能够根据普通话语音生成逼真的面部动画。
一个生产就绪的MCP服务器,通过Strudel.cc实现AI驱动的音乐生成,提供完整的浏览器自动化控制、实时音频分析和模式生成功能
Transcribe MCP是一个AI驱动的自动化转录工具,支持快速高质量的多语言音频转文字,提供本地和云端服务,并可与多种AI助手集成。