POKÉLLMonは、戦術的戦闘ゲームにおいて人間レベルの性能を実現した初のLLMベースのエージェントです。3つの主要な戦略を統合しています。1)コンテキストベースの強化学習:戦闘から抽出したテキスト記述からのフィードバックをリアルタイムに活用し、生成戦略を反復的に最適化します。2)知識増強型生成:外部知識を利用して幻覚に対抗し、エージェントがタイムリーかつ正確に行動できるようにします。3)自己整合的な行動生成:強力な相手と対峙し、戦闘を避けたい場合の、パニックによる行動の急変を軽減します。人間のプレイヤーとのオンライン対戦では、POKÉLLMonの人間レベルの戦闘性能と戦略が示され、リーグ戦で49%、招待試合で56%の勝率を記録しました。さらに、人間のプレイヤーによる消耗戦術や欺瞞戦術に対する脆弱性も明らかにしました。