Colossal-AI开源了完整的Sora复现架构方案Open-Sora,声称可降低46%复现成本,并将模型训练输入序列长度扩充至819K patches。Sora算法复现方案在Sora的技术报告中,Sora使用了一个视频压缩网络将各种尺寸的视频压缩成一个隐空间的时空块序列,然后使用了Diffusion Transformer进行去噪,最后进行解码生成视频。Open-Sora将Sora可能使用的训练pipeline归纳为提供完整的Sora复现架构方案,包含从数据处理到训练推理全流程。目前Open-Sora已涵盖提供完整的Sora复现架构方案,包含从数据处理到训练推理全流程,支持动态分辨率,支持多种模型结构,支持多种视频压缩方法,支持多种并行训练优化。性能方面,在单台H800 SXM 8*80GB GPU上使用DiT-XL/2模型的性能测试为例,在600K的序列长度时,Open-Sora的方案比基线方案有40%以上的性能提升和成本降低。Open-Sora开源地址:https://github.com/hpcaitech/Open-Sora。
相关AI新闻推荐

谷歌重启 AI 驱动的 “Ask Photos” 功能,提升搜索速度!
近日,谷歌宣布其 AI 驱动的 “Ask Photos” 搜索工具将重新开放访问,并对该功能进行了一系列改进。在此之前,谷歌曾悄然暂停了该工具的推出,以便进一步优化用户体验。“Ask Photos” 工具由谷歌的 Gemini AI 模型提供支持,用户可以通过提出复杂的问题来快速找到所需的照片。尽管该功能具有很大的潜力,但在本月初,谷歌照片团队的一位成员在社交媒体平台 X 上表示,当前的工具在延迟、质量和用户体验方面仍未达到理想状态。对此,谷歌在周四发布的博客中表示,他们已听取用户反
谷歌推出Offerwall工具:帮助出版商应对AI搜索冲击,测试显示收入提升9%
AIbase报道 — 功能特性与应用场景Offerwall允许出版商为网站读者提供多种内容访问方式,包括小额支付、参与调查、观看广告等选项。出版商还可添加自定义选项,如订阅新闻通讯等。该工具现已在Google Ad Manager中免费提供,并由AI智能决定何时向访客展示,以最大化参与度和收益。经过超过一年的测试,已有1000家出版商参与试用。谷歌与第三方合作伙伴Supertab合作,支持用户通过小额支付获得24小时、数天或一周的内容访问权限。变现效果与数据表现测试数据显示,Offerwall在帮助出版商增

重磅!谷歌开源Gemma3n多模态模型,手机也能跑出云端AI性能
谷歌于本周五凌晨正式发布并开源全新端侧多模态大模型Gemma3n,这一突破性产品为手机、平板、笔记本等端侧设备带来了此前只能在云端体验的强大多模态功能。核心特性:小体积大能力Gemma3n提供E2B和E4B两个版本,虽然原始参数量分别为5B和8B,但通过架构创新,其内存占用仅相当于传统2B和4B模型,分别只需2GB和3GB内存即可运行。该模型原生支持图像、音频、视频和文本的多模态输入处理,支持140种文本语言和35种语言的多模态理解。值得一提的是,E4B版本在LMArena评测中得分超过1300,成为

OpenAI 全面转向 Rust,重构 Codex CLI 以提升性能
近日,OpenAI 宣布将重构其 Codex CLI 工具,彻底放弃 TypeScript,转而采用 Rust 语言。这一决定旨在为开发者提供更高效、更稳定的 AI 终端交互体验。Codex CLI 最初是为简化开发者在终端与 AI 交互而设计的,采用了 TypeScript 和基于 React 的 Ink 框架。然而,随着 Codex CLI 的不断发展,团队发现 TypeScript 在应对日益复杂的用例时显得力不从心。图源备注:图片由AI生成,图片授权服务商MidjourneyOpenAI 的技术团队成员 Fouad Matin 在 GitHub 讨论中表示:“我们正在重写 Codex CLI,采用 Rust 语言。” 虽然 TypeScript

值得买科技“海纳”MCP Server平台一月获 20 余家合作邀请 AI驱动GMV提升15%
值得买科技在 6 月AI进展线上分享会上公布最新业务数据,该公司基于MCP构建的标准化消费数据服务能力平台"海纳"MCP Server短短一个月内吸引了 20 多家行业伙伴的合作邀请,显示出强劲的市场需求。值得买科技CTO王云峰介绍,"海纳"MCP Server整合了公司在消费领域沉淀的数据和内容优势,凭借丰富性、实时性、中立性等独特价值,成为众多AI产品选用的消费能力增强服务。该平台除已入驻阿里云百炼平台外,近期还成功入驻火山方舟平台,并向更多大模型、智能终端、智能体应用平台等合作

字节跳动推出 ProtoReasoning 框架:提升大语言模型的逻辑推理能力
近日,字节跳动的研究与上海交通大学的团队共同推出了名为 ProtoReasoning 的新框架,旨在通过逻辑原型来增强大语言模型(LLMs)的推理能力。该框架利用结构化的原型表示,如 Prolog 和 PDDL,推动了跨领域推理的进展。近年来,大语言模型在跨领域推理方面取得了显著突破,尤其是在长链推理技术的应用下。研究发现,这些模型在处理数学、编程等任务时,表现出了在逻辑难题和创意写作等无关领域的优异能力。然而,这种灵活性背后的原因尚未完全明确。一种可能的解释是,这些模型学

微软发布创新小参数模型Mu:性能比肩Phi-3.5-mini,赋能Windows智能体
今天凌晨,微软正式发布了其最新创新小参数模型Mu。 这款模型参数仅为3.3亿,却在性能上能与微软此前发布的Phi-3.5-mini相媲美,而其体量仅为Phi-3.5-mini的十分之一。更令人瞩目的是,Mu在离线NPU笔记本设备上能实现每秒超过100个token的响应速度,这在小参数模型领域是极为罕见的突破。Mu模型的一大亮点是支持在Windows中设置智能体。用户只需通过自然语言指令,智能体便能实时转化为系统操作,例如,一句“把鼠标指针调大一些,调整屏幕亮度”即可让智能体精准定位并一键完成设置调整

Meta 发布新款高性能 AI 眼镜,助力运动爱好者 “解放双手”
近日,Meta 与知名运动品牌欧克利(Oakley)合作推出了一款新型 AI 眼镜 ——Oakley Meta HSTN Performance。这款眼镜的设计旨在满足运动场景的需求,定位为高性能 AI 眼镜。这是 Meta 首次与 Ray-Ban 之外的品牌联手推出 AI 眼镜,标志着其进军高端市场的重要一步。新款 AI 眼镜的核心功能包括拍照、听音乐、接打电话以及与 Meta AI 的互动。用户可以通过语音随时向 Meta AI 提问,控制眼镜进行拍照或录制视频,并能一键将内容分享给朋友。这种功能在运动时尤其实用,可以让用户 “解放双手”。Oakle

阿里云在欧洲推出多款 AI 产品
近日,阿里云在德国法兰克福节点正式上线了一系列人工智能(AI)相关产品。阿里云的产品涵盖了多个技术模块,涉及计算能力、数据安全、合规管理等。这些模块的上线,将使得欧洲的企业能够更高效地应用 AI 技术,提高生产力并优化运营。特别是在当前数字化转型的浪潮下,企业对智能解决方案的需求持续攀升,阿里云的到来正是及时的帮助。除了推出新产品,阿里云还与全球知名咨询公司埃森哲以及物流巨头菜鸟联手,推出了专门针对高奢零售与物流行业的智能解决方案。通过这

亚马逊 CEO 警告:生成式 AI 将重塑岗位,部分员工或被取代,鼓励技能提升
亚马逊首席执行官安迪·贾西(Andy Jassy)周二在一封面向全体员工的电子邮件中透露,公司正加速部署生成式人工智能(Generative AI),此举将对部分岗位产生影响,预期会减少整体的企业员工数量。贾西在备忘录中指出,生成式人工智能的应用不仅是在亚马逊的产品中,更重要的是将“进一步倾向于”在内部流程中使用。亚马逊目前正在开发或已完成超过一千个生成式人工智能项目。他以 Alexa+ 为例,说明了公司未来的发展方向,尽管亚马逊首席信息安全官(CISO)强调该服务在正式发布前仍需