xAI旗下Grok Imagine新增10秒视频生成功能,视频质量显著提升,画面稳定、细节丰富,音频清晰同步。目前生成过程仍较随机,缺乏计时器选项,输出长度和一致性有待优化,但相关功能预计将很快完善。
快手Kling 2.6版本推出语音与动作控制两大功能,实现原生音频生成并提升复杂动作处理精度。语音控制可生成匹配视频的音效、人声和音乐,支持个性化声音定制。
字节跳动推出“Seedance1.5Pro”音视频创作模型,现已上线豆包平台。该模型实现“文字-画面-声音”一体化生成,能深度理解文本意图,同步创作匹配的画面、音效与人物台词,有效避免音画脱节,并提升人物“开口说话”的自然度,让普通用户也能轻松制作有声视频。
阿里巴巴12月16日发布新一代万相2.6系列模型,针对影视制作和图像创作全面升级,号称“全球功能最全的视频生成模型”。该模型已上线阿里云百炼和官网,核心亮点包括国内首个“角色扮演”功能,并支持音画同步、多镜头生成及声音驱动等,在画质、音效等方面实现技术突破。
在insMind使用Sora 2生成无水印视频,含音效、特效与逼真动作
最新视频生成模型,更真实、可控,支持同步对话与音效。
创造令人惊叹的AI视频,使用VO3 AI,这是一款先进的视频生成器,无缝结合音效、对话和环境音效,提供沉浸式观看体验。
AISFXGen 是一个基于 AI 技术的音效生成器,支持文本和视频生成音效。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$2.1
$17.5
Alibaba
$2
$20
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
256
Baidu
Tencent
24
32