DeepMind 指出 Transformer 在预训练数据范围外无法实现泛化能力

机器之心
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
近日,字节跳动的 Seed 团队在人工智能领域再传佳音,推出了一种新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),这项创新突破了预训练长度的限制,有效解决了推理过程中的 KV 缓存膨胀问题。随着大型推理模型的迅速发展,研究人员在后训练阶段尝试通过强化学习方法来生成更长的推理链,并在复杂的推理任务上取得了显著成果。受到启发,字节 Seed 团队决定探索在预训练阶段进行长度扩展的可能性。传统的长度扩展方法常常涉及在序列中插入文本或潜在向量,这些方式往往导致
近日,字节跳动宣布推出其全新的数据选择框架 QuaDMix,旨在提升大型语言模型(LLM)预训练的效率和泛化能力。众所周知,模型的训练效果受基础数据集的质量和多样性影响很大。然而,传统的数据筛选方法往往将质量和多样性视为两个独立的目标,先进行质量过滤,再进行领域平衡。这种逐步优化的方式忽略了质量与多样性之间的复杂相互关系。优质数据集往往存在领域偏差,而多样化的数据集可能会降低质量。因此,在固定的训练预算下,如何同时优化这两个维度以最大化模型性能
字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transformer(PHD-Transformer)框架,显著提升大语言模型(LLM)在长序列预训练中的效率与性能。据AIbase了解,该技术在保持推理效率的同时,支持高达2048K(2M)的上下文长度训练,解决了传统框架在数据异构性与计算平衡上的瓶颈。相关研究已在arXiv公开,引发了AI研究社区的广泛关注。核心创新:PHD-Transformer优化长序列训练字节跳动的PHD-Transformer通过独特的键值缓存(KV Cache)管理策略与架构优
阿里巴巴集团的科学家们推出了 VACE,这是一种旨在统一处理广泛视频生成和编辑任务的通用人工智能模型。VACE 的核心是增强的扩散 Transformer 架构,其创新之处在于“视频条件单元”(VCU)这一新型输入格式。VCU 将文本提示、参考图像或视频序列以及空间蒙版等多种模态输入提炼为统一的表示,并通过专门的机制协调不同输入,避免冲突。概念解耦实现精细控制VACE 采用“概念解耦”技术将图像分割为可编辑和固定区域,实现对修改内容和保留内容的精细控制。视觉信息通过遮罩划分为
在视频生成领域,最近涌现出了一位强劲的新选手 ——MAGI-1。这款由马尔奖和清华特奖得主曹越领导的创业公司 Sand AI 推出的自回归视频生成大模型,正在重新定义视频创作的可能性。MAGI-1通过预测视频块的序列来生成视频,以其自然流畅的效果和多个可下载版本引发广泛关注。MAGI-1在生成视频时具有诸多优越性能。首先,它提供了无缝流畅的视频体验,能够生成连续的长视频场景,没有尴尬的剪辑或突兀的拼接,仿佛是电影一般。此外,MAGI-1还实现了秒级的时间轴精准控制,让用户能够
在图像生成领域,技术的进步不断推动着虚拟现实等应用的发展。最近,三星研究院提出了一种基于自回归建模的新方法,旨在提升图像生成的保真度和可扩展性。与传统的一次性生成整个场景的方法不同,该方法采用了逐步添加细节的策略,使图像的生成过程更符合人类的创作习惯。这一新方法的核心在于将图像生成分为 “基础” 与 “细节” 两个层次,首先生成一个平滑的基础图像,再通过迭代的方式逐步添加细节,最终形成一个连贯的高质量图像。研究团队强调,这种分层组合的策
随着人工智能(AI)技术的不断成熟,业内专家提出,AI 发展的重心正在发生显著转变。从早期的模型训练和算法创新,转向更加关注任务定义与评估优化。这一观点由 OpenAI 的研究员姚顺雨提出,他强调,在 AI 的下半场,产品思维将成为推动技术应用和商业化的关键。在 AI 的上半场,研究者们专注于构建强大的模型,例如 Transformer 和 GPT-3等,这些模型在各种基准任务中表现出色。此阶段的核心在于方法论,研究人员主要关注如何设计和优化算法,而任务的定义往往被视为次要。因此,尽
近日,来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型(LLMs)训练的新发现:并不是预训练的数据越多,模型的表现就越好。相反,他们指出,过度的预训练可能会导致模型性能下降,出现一种被称为 “灾难性过度训练” 的现象。在一项研究中,研究者们对 OLMo-1B 模型进行了比较,分别对其进行了2.3万亿和3万亿个标记的训练。出乎意料的是,虽然第二个模型接受了更多的数据训练,但其在一些基准测试(例如 AlpacaEval 和 ARC)的表现却下
4月9日,在广东省人工智能与机器人产业创新产品与服务新闻发布会上,广汽集团正式发布其第三代具身人形机器人GoMate。广汽机器人团队负责人透露,GoMate目前已在安防领域展开应用,执行巡检等任务,未来更将拓展至汽车生产线及后服务市场等领域。对于为何涉足人形机器人领域,张爱民解释,新能源汽车与人形机器人在技术和供应链上存在高度关联性,例如芯片、激光雷达、视觉传感器等技术可直接复用。同时,汽车生产车间和4S店也为人形机器人提供了广阔的应用场景。广汽集团希
近日,一项名为《One-Minute Video Generation with Test-Time Training》(一分钟视频生成与测试时训练)的全新研究论文正式发布,标志着人工智能视频生成技术迈入了一个崭新阶段。该研究通过在预训练Transformer模型中引入创新的测试时训练(TTT)层,成功实现了生成一分钟《猫和老鼠》(Tom and Jerry)动画视频的壮举。这一技术不仅在时间跨度上突破了传统AI视频生成的限制,还在画面连贯性和故事完整性上达到了令人惊叹的高度,为AI驱动的创意内容生产开辟了新的可能性。这项研究的亮点在于其生成