阿里巴巴12月16日发布新一代万相2.6系列模型,针对影视制作和图像创作全面升级,号称“全球功能最全的视频生成模型”。该模型已上线阿里云百炼和官网,核心亮点包括国内首个“角色扮演”功能,并支持音画同步、多镜头生成及声音驱动等,在画质、音效等方面实现技术突破。
快手旗下可灵AI推出首个“音画同出”模型可灵2.6,能同时生成画面、语音、音效和环境氛围,打通音画世界。该模型提供“文生音画”和“图生音画”两种创作路径,用户可通过一句话或图片快速生成完整视频,提升创作体验。
爱诗科技推出PixVerse V5.5(国内版“拍我AI V5.5”),实现全量升级并开放体验。该模型是国内首个支持“多镜头+音画同步一键直出”的AI视频大模型,推动AI生成视频从“单镜头素材”进入“完整叙事短片”阶段。基于自研MVL架构,V5.5能在5-10秒内自动完成脚本拆解、分镜调度及音效生成,显著提升视频制作的完整性与效率。
智谱AI发布清影2.0,支持文本生成1080P高清视频,并集成CogSound模型自动添加音效,实现视听一体创作。该产品被视为国产版“Sora”,为开发者提供创新AI应用工具。
最新视频生成模型,更真实、可控,支持同步对话与音效。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
walterheart
Bark是由Suno创建的基于Transformer的文本转音频模型,可生成高度逼真的多语言语音、音乐、背景噪音和音效。
facebook
MAGNeT是一款基于非自回归Transformer的文本生成音乐与音效模型,能够根据文本描述生成高质量音频样本。
ylacombe
Bark是由Suno创建的基于Transformer的文本转音频模型,能生成高度逼真的多语言语音、音乐、背景噪音和简单音效。
declare-lab
TANGO是基于潜在扩散模型的文本转音频生成工具,能够根据文本提示生成包括人声、动物声音、自然与人工音效在内的逼真音频。
suno
TANGO是基于指令引导扩散的文本转音频模型,能够根据文本提示生成包括人声、动物声音、自然与人工音效在内的逼真音频。
该项目通过Model Context Protocol(MCP)让大型语言模型直接理解和生成Max音频处理软件中的音效模块,支持解释、修改和创建音效模块,并提供与LLM的交互界面。