苹果发布两项机器学习研究:SQUIRE系统利用GPT-4o和槽查询中间表示,提升AI生成UI的可控性与微调效率;另一项研究则强化图像安全审查能力,旨在解决现有技术痛点。
Fish Audio发布新一代开源TTS模型S2,实现文本转语音在情感与韵律上的精细控制。用户可通过自然语言指令或标签(如[笑]、[耳语])调节情绪,支持词级或短语级调整,显著提升语音表现力与可控性。
AI视频生成正从随机性强的“开盲盒”阶段转向实用化。尽管Sora曾引发行业焦虑,但画面不连贯等问题阻碍了其工业化应用。为此,万兴剧厂平台通过流程再造,致力于将AI视频从演示“玩具”升级为可靠“生产力工具”,核心在于解决连贯性与可控性难题。
可灵3.0Pro以1240分登顶全球视频大模型榜首,展现了强大的技术实力。该系列共有7款模型进入前15名,在视频真实感、一致性和可控性方面均处于行业领先地位。这一成就标志着AI生成视频技术迈入新阶段。
CineMaster 是一个 3D 意识的可控文本到视频生成框架,允许用户在 3D 空间中操纵对象和相机。
SliderSpace 是一种用于分解扩散模型视觉能力的技术,通过直观的滑块实现对模型的可控性和可解释性。
提升文本到图像生成的可控性
Anthropic
$21
Input tokens/M
$105
Output tokens/M
200
Context Length
Stepfun
-
Baidu
4
MCG-NJU
SteadyDancer是一个基于图像到视频范式的强大动画框架,专门用于生成高保真且时间连贯的人体动画。该框架通过稳健的首帧保留机制,有效解决了传统方法中的身份漂移问题,在视觉质量和可控性上表现出色,同时显著减少了训练资源需求。
briaai
FIBO是首个专为长结构化描述训练的开源文本到图像模型,为可控性、可预测性和特征解耦设定了新标准。该模型拥有80亿参数,仅使用有许可的数据进行训练,支持专业工作流程需求。
JackAILab
ConsistentID是一个多模态细粒度身份保持的肖像生成模型,能够生成具有极高身份保真度的肖像,同时不牺牲多样性和文本可控性。