火山引擎发布Seedance 2.0系列API服务,提供先进的视频生成技术,支持文本、图片、音频和视频四种输入方式,具备多模态内容创建与编辑能力,适用于复杂互动和动态场景。该服务旨在帮助企业及个人用户优化工作流程,探索创新应用,同时确保AI视频创作的合规性与安全性。
马斯克旗下xAI公司发布Grok Imagine 1.0,实现AI视频生成技术重大突破。该版本支持生成10秒720p高清视频,音频质量显著提升,大幅缩短高质量视频创作时间,标志着AI视频生成领域的重要进展。
昆仑万维开源视频生成大模型SkyReels-V3,实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入,能精准保留主体身份与构图,推动视频生成技术进入高保真、多模态新阶段。
Meta提出基于多模态感知的AI面部表情生成技术,通过分析用户身体动作、语音等多维度信息,在虚拟互动中实现自然生动的表情生成,克服了传统方案依赖昂贵硬件或仅同步音频的局限,尤其适用于用户活动复杂、面部遮挡或仅通过身体传达信息的场景。
V03 AI是基于Google Veo 3 AI技术的视频生成器,支持文本到视频和图片到视频的转换,具备音频功能。
JoyGen 是一种音频驱动的 3D 深度感知的说话人脸视频编辑技术。
SyncAnimation 是一种基于 NeRF 的音频驱动实时生成说话头像和上半身动作的技术框架。
高效并行音频生成技术
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$6
$24
256
Baidu
128
Bytedance
$1.2
$3.6
4
$2
unsloth
Gemma 3n是谷歌推出的轻量级、最先进的多模态开放模型,基于Gemini技术构建。专为低资源设备设计,支持文本、图像、视频和音频输入,生成文本输出。采用选择性参数激活技术,在4B参数规模下高效运行。
DeSTA-ntu
DeSTA2.5-Audio是一个通用的大型音频语言模型,通过自生成的跨模态对齐技术,在无需特定任务指令调优数据的情况下实现高扩展性和效率,同时保留语言能力并避免灾难性遗忘。
FunAudioLLM
InspireMusic是一个专注于音乐生成、歌曲生成和音频生成的统一框架,通过音频标记化技术整合自回归变换器与基于流匹配模型,支持高质量长音频生成。
declare-lab
TangoFlux是一个高效的文本转音频生成系统,结合流匹配与CLAP偏好优化技术,能够快速生成高质量音频。
jadechoghari
QAMDT是一种面向文本生成音乐的质量感知扩散模型,通过创新训练技术提升音频保真度和音乐表现力。
Tango 2是基于Tango改进的文本转音频生成模型,通过直接偏好优化(DPO)技术实现音频生成的对齐训练
Narsil
基于稳定扩散技术的实时音乐生成模型,可根据文本输入生成频谱图并转换为音频片段
riffusion
Riffusion是一款基于稳定扩散技术的实时音乐生成应用,可根据文本输入生成频谱图并转换为音频片段。