阿里通义实验室发布并开源了Fun-CineForge模型,旨在解决AI配音中的口型不同步、情感缺失及多角色音色不一致等问题。该模型创新引入“时间模态”概念,通过精准时间戳控制,确保语音与画面同步,并同步开放高质量数据集构建方法。
阿里通义实验室发布并开源全球首个支持影视级、多场景配音的多模态大模型Fun-CineForge,旨在突破AI配音在情感表达、环境音融合及口型同步等方面的技术瓶颈,推动影视行业配音环节的智能化变革。
豆包视频生成模型Seedance1.5Pro正式上线火山方舟,提升AI视频创作效率与质量。该模型支持音画同步输出、多语言多人对白配音,并具备突出的影视级叙事张力。企业用户可通过火山方舟获取API服务,个人用户也可使用。
IndexTTS2是一款即将发布的影视级文本转语音大模型,具有三大突破性功能:1)完全本地化部署并开放权重,降低开发者使用门槛;2)零样本语音克隆技术,精准还原音色与节奏;3)全球首创的零样本情绪克隆和文本情绪控制功能。该模型还支持精准时长控制,特别适合影视配音,目前支持中英双语。基于先进的自回归架构,IndexTTS2通过开放策略推动TTS技术发展,在虚拟角色、影视制作等领域具有广泛应用前景。
Baidu
-
Input tokens/M
Output tokens/M
128
Context Length
Alibaba
$15.8
$12.7
64
$0.8
$2
Bytedance
Tencent
Openai
$0.63
$3.15
131
$1
32
Anthropic
$105
$525
200
$0.5
Huawei
Stepfun