斯坦福博士研发Flash-Decoding新方法 提速LLM推理8倍

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
随着大语言模型(LLM)技术的迅猛发展,文档解析领域迎来了一位新星——MonkeyOCR。这款轻量级文档解析模型以其卓越的性能和高效的处理速度,迅速成为业界关注的焦点。MonkeyOCR:小模型,大能量MonkeyOCR以仅3B参数的轻量级架构,在英文文档解析任务中展现出惊艳的性能。根据社交媒体上的最新讨论,MonkeyOCR在多项文档解析任务中超越了Gemini2.5Pro和Qwen2.5-VL-72B等重量级模型,平均性能提升显著。尤其是在复杂文档类型的解析上,MonkeyOCR表现尤为突出,公式解析提升高达15.0%,表格解析提升8
小红书近日宣布开源其首个大规模模型 ——dots.llm1,该模型具有1420亿个参数,是一种专家混合模型(MoE)。其设计的一个显著特点是,在推理过程中仅激活140亿参数,这种结构不仅保持了高性能,还大幅降低了训练和推理的成本。dots.llm1使用了11.2万亿个非合成的高质量训练数据,这在当前开源大模型中显得非常罕见,表明小红书在语言处理方面的强大资源。该模型在中文测试中的表现优异,平均得分91.3,超越了多款竞争对手,如 DeepSeek 的 V2、V3和阿里巴巴的 Qwen2.5系列。在技术架构方面
在最近的科技进展中,英伟达与麻省理工学院(MIT)和香港大学联合推出了名为 Fast-dLLM 的新框架,显著提升了扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍。这一创新的成果为语言模型的应用开辟了新天地。扩散模型被视为自回归模型的有力竞争者,采用了双向注意力机制,使其在理论上能够实现多词元同步生成,从而加快解码速度。然而,实际应用中,扩散模型在推理速度上却常常无法与自回归模型相媲美,因为每一次生成都需要重复计算所有注意力状态,这使得计算成本居高
近日,科技巨头英伟达联合麻省理工学院(MIT)与香港大学,发布了名为 Fast-dLLM 的新框架。这一创新的框架旨在显著提高扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍,为人工智能的应用提供了更为强大的技术支持。 扩散模型的挑战与机遇扩散模型被视为传统自回归模型(Autoregressive Models)的有力竞争者。它采用双向注意力机制(Bidirectional Attention Mechanisms),理论上能够通过同步生成多个词元(Multi-token Generation)来加速解码过程。然而,在实际应用中,扩散模型的推理速度常常不及
近日,火山引擎旗下的大模型服务平台火山方舟正式宣布接入最新版本的DeepSeek-R1-0528,此举不仅彰显了火山引擎在大模型服务领域的技术实力,也为企业用户和开发者提供了更为高效、便捷的大模型应用体验。 火山方舟平台针对大模型应用的核心需求,即速度和稳定性,构建了高性能服务体系。通过自研的xLLM高性能推理框架,该平台实现了模型延迟低至30ms Per Token的极致推理速度,并凭借行业领先的稳定性,确保在负载波动情况下仍能保持高效低延迟输出,从而
科技巨头 Meta 与香港中文大学的研究团队联合推出了 Multi-SpatialMLLM 模型,这一新框架在多模态大语言模型(MLLMs)的发展中取得了显著进展,尤其是在空间理解方面。该模型通过整合深度感知、视觉对应和动态感知三大组件,突破了以往单帧图像分析的限制,为更复杂的视觉任务提供了强有力的支持。近年来,随着机器人和自动驾驶等领域对空间理解能力的需求不断增长,现有的 MLLMs 面临着诸多挑战。研究发现,现有模型在基础空间推理任务中表现不佳,例如,无法准确区分左右方向。这
最近,通义实验室和北京大学的研究团队推出了一项名为 ZeroSearch 的创新框架,这一新技术可以在不需要真实搜索的情况下,激活大语言模型的检索能力,并且训练成本降低了惊人的88%。这一突破为大语言模型的训练和应用提供了全新的思路。传统的训练方法通常依赖于真实的搜索引擎来获取信息,这不仅造成了高昂的 API 调用成本,还可能因搜索结果的质量不稳定而影响模型的表现。ZeroSearch 巧妙地通过引入大语言模型作为 “模拟搜索引擎”,利用其在预训练过程中积累的丰富知识来生
Mistral 公司近日发布了其全新的 Agents API,这是一个专为开发者设计的框架,旨在简化 AI 代理的创建,代理可以执行多种任务,例如运行 Python 代码、生成图像以及进行检索增强生成(RAG)。这一 API 的推出,旨在为大型语言模型(LLMs)提供一个统一的环境,使其能够与多个工具和数据源以结构化且持久的方式进行交互。Agents API 建立在 Mistral 的语言模型基础上,集成了多个内置连接器。这些连接器使代理能够在受控环境中运行 Python 代码、通过专用模型生成图像、访问实时网络搜索,并利
在人工智能迅猛发展的今天,大语言模型(LLM)展现出了超凡的能力,但如何科学评估它们的 “心智” 特征,比如价值观、性格和社交智能,依旧是一个亟待解决的难题。近期,北京大学的宋国杰教授团队发布了一篇全面的综述论文,系统梳理了大语言模型心理测量学的研究进展,为 AI 的评估提供了新视角。这篇论文名为《大语言模型心理测量学:评估、验证与增强的系统综述》,长达63页,引用了500篇相关文献。随着 LLM 能力的快速迭代,传统的评估方法已显不足。论文指出,当前评估
全球开源解决方案领导者红帽公司近日宣布启动革命性开源项目llm-d,专门应对生成式AI大规模推理的迫切需求。该项目汇聚了CoreWeave、Google Cloud、IBM Research和NVIDIA等行业巨头作为创始贡献者,旨在通过突破性技术让大语言模型推理云满足最严苛的生产服务级目标。推理时代来临,挑战日益严峻根据Gartner最新数据预测,"到2028年,随着市场成熟,80%以上的数据中心工作负载加速器将专门部署用于推理,而非训练用途。"这一趋势凸显了推理技术的战略重要性。然而,随着推理模型复杂性和规