大模型推理大變革!CMU 與英偉達攜手推出 Multiverse,實現超高速並行生成
隨着人工智能的發展,大型語言模型(LLM)的應用越來越廣泛,但目前的推理方式仍然存在不少侷限性。傳統的自迴歸生成方式需要逐個生成 token,效率較低且無法充分利用現代硬件的並行計算能力。爲了解決這一問題,卡耐基梅隆大學(CMU)與英偉達的研究團隊推出了一種名爲 Multiverse 的新型生成模型,旨在實現原生並行生成,從根本上改變我們對 LLM 推理的理解。Multiverse 並不僅僅是加快生成速度,而是重新思考了模型的架構。研究者們發現,當前主流的大語言模型在生成過程中其實暗含