Kimi聯手清華開源大模型推理架構Mooncake 提升AI推理效率
在人工智能迅速發展的時代,大型模型的智能化水平不斷提升,但隨之而來的推理系統效率挑戰也越來越明顯。如何應對高推理負載、降低推理成本、縮短響應時間,已成爲業界共同面對的重要問題。Kimi 公司聯合清華大學的 MADSys 實驗室,推出了基於 KVCache 的 Mooncake 推理系統設計方案,該方案於2024年6月正式發佈。Mooncake 推理系統通過創新的 PD 分離架構和以存換算爲中心的理念,顯著提升了推理的吞吐能力,吸引了廣泛的行業關注。爲了進一步推動這一技術框架的應用與普及,Kimi 與清華