Colossal-AI开源了完整的Sora复现架构方案Open-Sora,声称可降低46%复现成本,并将模型训练输入序列长度扩充至819K patches。Sora算法复现方案在Sora的技术报告中,Sora使用了一个视频压缩网络将各种尺寸的视频压缩成一个隐空间的时空块序列,然后使用了Diffusion Transformer进行去噪,最后进行解码生成视频。Open-Sora将Sora可能使用的训练pipeline归纳为提供完整的Sora复现架构方案,包含从数据处理到训练推理全流程。目前Open-Sora已涵盖提供完整的Sora复现架构方案,包含从数据处理到训练推理全流程,支持动态分辨率,支持多种模型结构,支持多种视频压缩方法,支持多种并行训练优化。性能方面,在单台H800 SXM 8*80GB GPU上使用DiT-XL/2模型的性能测试为例,在600K的序列长度时,Open-Sora的方案比基线方案有40%以上的性能提升和成本降低。Open-Sora开源地址:https://github.com/hpcaitech/Open-Sora。
相关AI新闻推荐

突破瓶颈!上交大与上海AI Lab携手提升多模态大模型反思能力
上海交大与上海AI实验室推出MM-HELIX项目,旨在解决多模态大模型在复杂推理中缺乏反思能力的问题。该项目通过模拟人类长链反思性推理,提升AI处理需多次尝试挑战的能力,推动模型从“耿直”转向灵活思考。

Adobe推出AI Foundry服务:为企业定制基于品牌资产的生成式AI模型
Adobe推出AI Foundry服务,支持企业基于自有品牌和知识产权训练定制生成式AI模型,拓展企业级AI解决方案。该服务基于Firefly系列模型,可生成文本、图像、视频及3D内容,使用授权数据训练,确保合规性。

OpenAI强化Sora 2保护政策,确保艺人声音与肖像权不被侵犯
OpenAI于10月20日宣布与SAG-AFTRA、演员布莱恩・克兰斯顿等合作,加强对Sora2技术的监管,以保护艺术家声音和肖像权。Sora2能模拟声音与形象,但引发伦理法律问题,新措施旨在确保严谨保障权益。

谷歌计划 12 月发布全新 AI 模型 Gemini 3.0,性能将大幅提升
谷歌计划今年12月发布Gemini 3.0 AI模型,延续年底发布传统。该版本预计性能显著提升,将增强谷歌在AI领域的竞争力,被视为与GPT-4等模型竞争的关键转折点。

AI日报:视觉中国与多家大模型公司达成合作;OpenAI紧急暂停Sora生成已故名人;谷歌推出Gemini地图数据集成工具
视觉中国与多家AI公司合作开发可商用视觉大模型,已获阿里、微软等订单。该模型聚焦创意行业,具备可溯源特性,助力企业洞悉AI技术趋势。

X 平台优化链接处理,力求提升用户留存率
X平台测试iOS新链接展示方式:点击链接时原始帖子折叠至屏幕底部,保持点赞、回复和转发按钮始终可见,旨在提升应用内互动率,解决用户点击外部链接后中断互动的问题。

天猫双十一大展身手,AI应用全面爆发!首日调用量达150亿次
天猫双十一推出六款AI导购应用,AI技术全面落地。首日大模型调用量达150亿次,算力提升40倍,显著优化用户体验,展现电商行业迅猛发展。

OpenAI 紧急暂停 Sora生成马丁・路德・金形象,AI 视频生成引发热议!
OpenAI应马丁·路德·金遗产管理处要求,暂停AI视频生成模型Sora对其形象的使用。此前平台出现用户生成的不当视频,引发公众对AI生成内容安全性的热议。除马丁·路德·金外,其他历史人物形象也面临类似滥用问题。

OpenAI 暂停Sora生成马丁・路德・金视频,保护历史人物形象
OpenAI应马丁·路德·金遗产管理处请求,暂停AI视频模型Sora生成其肖像。因用户制作"失礼"内容,公司强调虽需尊重历史人物言论自由,但公众人物及其家属应拥有肖像使用最终控制权。

一句话改变 AI 创作潜力:研究发现简单提示能显著提升输出多样性
斯坦福等大学团队提出“语言化采样”方法,通过在提示中要求模型“生成5个响应及其概率”,有效提升生成式AI的创作多样性。该方法适用于语言和图像模型,能激发更丰富的创造力输出。