英偉達與 MIT、香港大學聯手推出 Fast-dLLM 框架,推理速度提升驚人
在最近的科技進展中,英偉達與麻省理工學院(MIT)和香港大學聯合推出了名爲 Fast-dLLM 的新框架,顯著提升了擴散模型(Diffusion-based LLMs)的推理速度,最高可達27.6倍。這一創新的成果爲語言模型的應用開闢了新天地。擴散模型被視爲自迴歸模型的有力競爭者,採用了雙向注意力機制,使其在理論上能夠實現多詞元同步生成,從而加快解碼速度。然而,實際應用中,擴散模型在推理速度上卻常常無法與自迴歸模型相媲美,因爲每一次生成都需要重複計算所有注意力狀態,這使得計算成本居高