xLLM社區12月6日首揭開源推理引擎:支持MoE、T2I、T2V全場景,聯合Mooncake緩存方案實現延遲低於20ms
xLLM社區將於12月6日舉辦首屆線下Meetup,主題爲“共建開源AI Infra生態”。活動將展示自研推理引擎xLLM-Core,其性能數據表現突出:在同級GPU上,MoE、文生圖、文生視頻三類任務的P99延遲均低於20ms,較vLLM平均延遲下降42%,吞吐量提升2.1倍。技術亮點包括統一計算圖抽象多模態任務爲“Token-in Token-out”結構,以及Mooncake KV緩存集成優化。