xLLM社区12月6日首揭开源推理引擎:支持MoE、T2I、T2V全场景,联合Mooncake缓存方案实现延迟低于20ms
xLLM社区将于12月6日举办首届线下Meetup,主题为“共建开源AI Infra生态”。活动将展示自研推理引擎xLLM-Core,其性能数据表现突出:在同级GPU上,MoE、文生图、文生视频三类任务的P99延迟均低于20ms,较vLLM平均延迟下降42%,吞吐量提升2.1倍。技术亮点包括统一计算图抽象多模态任务为“Token-in Token-out”结构,以及Mooncake KV缓存集成优化。