Colossal-AI开源了完整的Sora复现架构方案Open-Sora,声称可降低46%复现成本,并将模型训练输入序列长度扩充至819K patches。Sora算法复现方案在Sora的技术报告中,Sora使用了一个视频压缩网络将各种尺寸的视频压缩成一个隐空间的时空块序列,然后使用了Diffusion Transformer进行去噪,最后进行解码生成视频。Open-Sora将Sora可能使用的训练pipeline归纳为提供完整的Sora复现架构方案,包含从数据处理到训练推理全流程。目前Open-Sora已涵盖提供完整的Sora复现架构方案,包含从数据处理到训练推理全流程,支持动态分辨率,支持多种模型结构,支持多种视频压缩方法,支持多种并行训练优化。性能方面,在单台H800 SXM 8*80GB GPU上使用DiT-XL/2模型的性能测试为例,在600K的序列长度时,Open-Sora的方案比基线方案有40%以上的性能提升和成本降低。Open-Sora开源地址:https://github.com/hpcaitech/Open-Sora。
相关AI新闻推荐

谷歌计划 12 月发布全新 AI 模型 Gemini 3.0,性能将大幅提升
谷歌计划今年12月发布Gemini 3.0 AI模型,延续年底发布传统。该版本预计性能显著提升,将增强谷歌在AI领域的竞争力,被视为与GPT-4等模型竞争的关键转折点。

AI日报:视觉中国与多家大模型公司达成合作;OpenAI紧急暂停Sora生成已故名人;谷歌推出Gemini地图数据集成工具
视觉中国与多家AI公司合作开发可商用视觉大模型,已获阿里、微软等订单。该模型聚焦创意行业,具备可溯源特性,助力企业洞悉AI技术趋势。

X 平台优化链接处理,力求提升用户留存率
X平台测试iOS新链接展示方式:点击链接时原始帖子折叠至屏幕底部,保持点赞、回复和转发按钮始终可见,旨在提升应用内互动率,解决用户点击外部链接后中断互动的问题。

天猫双十一大展身手,AI应用全面爆发!首日调用量达150亿次
天猫双十一推出六款AI导购应用,AI技术全面落地。首日大模型调用量达150亿次,算力提升40倍,显著优化用户体验,展现电商行业迅猛发展。

OpenAI 紧急暂停 Sora生成马丁・路德・金形象,AI 视频生成引发热议!
OpenAI应马丁·路德·金遗产管理处要求,暂停AI视频生成模型Sora对其形象的使用。此前平台出现用户生成的不当视频,引发公众对AI生成内容安全性的热议。除马丁·路德·金外,其他历史人物形象也面临类似滥用问题。

OpenAI 暂停Sora生成马丁・路德・金视频,保护历史人物形象
OpenAI应马丁·路德·金遗产管理处请求,暂停AI视频模型Sora生成其肖像。因用户制作"失礼"内容,公司强调虽需尊重历史人物言论自由,但公众人物及其家属应拥有肖像使用最终控制权。

一句话改变 AI 创作潜力:研究发现简单提示能显著提升输出多样性
斯坦福等大学团队提出“语言化采样”方法,通过在提示中要求模型“生成5个响应及其概率”,有效提升生成式AI的创作多样性。该方法适用于语言和图像模型,能激发更丰富的创造力输出。

OpenAI 与马丁·路德·金遗产公司合作 暂停Sora生成金博士肖像
OpenAI与马丁·路德·金遗产公司合作,调整视频生成工具Sora中金博士肖像的使用。因部分用户生成不尊重内容,应遗产公司要求,OpenAI已暂停生成相关肖像,以加强历史人物保护。

Anthropic为Claude推出Skills功能:支持自定义技能包和代码执行,提升工作流自动化能力
Anthropic为Claude推出"Skills"功能,用户可创建包含指令、脚本和资源的技能包,Claude自动调用完成操作,提升工作流程自动化和规范性。该功能具备可组合性(组合多个技能应对复杂任务)和可移植性两大核心特性。

OpenAI视频生成模型Sora 2上线微软Azure平台:定价每秒0.1美元,进入公共预览阶段
微软宣布OpenAI视频生成模型Sora2在Azure AI平台开放公共预览,首次通过云API向企业和开发者提供。该多模态模型支持文本、图像和视频输入,能组合生成新视频内容,适用于广告等商业场景,标志生成式AI视频工具迈入商业化应用阶段。