阿里通义万相团队即将推出AI模型Wan2.2-S2V,具备视频与音频同步生成能力,实现深度融合。该模型可生成带唱歌音频的AI视频,突破传统仅视觉生成的局限,是多模态AI技术的重要进展。
Wan-AI
Wan2.2-S2V-14B是一个专为音频驱动的电影级视频生成而设计的混合专家(MoE)模型。它能够根据输入的音频、参考图像和文本提示生成高质量的视频内容,支持480P和720P分辨率,并具备复杂运动生成和电影级美学效果。