MiniMax推出新一代音乐生成模型Music2.0,凭借显著提升的音乐理解与表达能力,被形容为“会唱歌的制作人”。该模型能精准捕捉人声情绪和器乐动态,在声音表现力上实现关键突破,预示着音乐创作体验的重大变革。
MiniMax公司视频生成模型Hailuo2.3在Replicate平台上线,支持文本和图像输入生成高质量视频。该模型通过NCR架构提升训练效率,以逼真物理模拟和流畅动作捕捉能力,推动AI在电影、广告等领域的动态视觉效果创新。
苹果发布SlowFast-LLaVA模型,在长视频分析任务中表现优异,超越更大参数模型。其双流架构通过慢流捕捉静态细节,快流处理动态信息,有效解决传统逐帧处理的信息冗余和上下文窗口溢出问题,为长视频内容分析提供高效解决方案。
近日,阿里语音AI团队宣布开源全球首个支持链式推理的音频生成模型ThinkSound,该模型通过引入思维链(Chain-of-Thought)技术,突破传统视频转音频技术对画面动态捕捉的局限,实现高保真、强同步的空间音频生成。这一突破标志着AI音频技术从“看图配音”向“结构化理解画面”的跨越式发展。
从单张图片创建逼真的3D头像
自由动态捕捉,释放想象
Openai
-
Input tokens/M
Output tokens/M
Context Length
Bytedance
Tencent
$1
$4
32
Alibaba
$2
$0.3
Google
$8.75
$70
1k
Anthropic
$21
$105
200
Stepfun
Baidu
$3
$9
128
Minimax
Moonshot
$10
$30
131
Chatglm
01-ai
Skywork
天工卷轴V1是首个开源的、以人物为核心的高级视频基础模型,基于混元视频框架,通过对千万级高质量影视片段进行微调,具备面部动态捕捉和电影级光影美学等核心优势。