xLLMコミュニティが12月6日に最初のオープンソース推論エンジンを公開:MoE、T2I、T2Vのすべてのシナリオをサポート。Mooncakeキャッシュスキームと連携し、遅延を20ms以下に実現
xLLMコミュニティは12月6日に初のオフラインMeetupを開催。テーマは「オープンソースAIインフラ生態系の共創」。自社開発推論エンジンxLLM-Coreを発表:同クラスGPUでMoE/画像生成/動画生成のP99レイテンシ20ms未満、vLLM比でレイテンシ42%低下、スループット2.1倍向上。技術的特長はマルチモーダルタスクを「Token-in Token-out」に統一する計算グラフとKVキャッシュ最適化。....