Mit der kontinuierlichen Entwicklung der KI-Technologie ist es zu einem Forschungsschwerpunkt geworden, wie man große Sprachmodelle (LLM) entwickeln kann, die komplexe Aufgaben eigenständig erledigen können.

Um diese Agenten menschenähnlich zu machen und sie lernen zu lassen, indem sie die Umgebung erkunden und interagieren, benötigen Forscher einen starken und einheitlichen Rahmen für Verstärkendes Lernen (RL). Allerdings fehlt es in der aktuellen Forschung noch an einer effektiven Trainingsmethode, die Agenten in verschiedenen realen Umgebungen von Grund auf trainieren kann, ohne auf überwachtes Fine-Tuning (SFT) angewiesen zu sein.

image.png

Um dieses Problem zu lösen, hat das Seed-Forschungsteam von ByteDance ein neues Framework namens AgentGym-RL vorgestellt. Dieses Framework konzentriert sich darauf, LLM-Agenten durch Verstärkendes Lernen zu trainieren, damit sie Entscheidungen in mehreren Interaktionsrunden treffen können. Das Framework verfügt über eine modulare und entkoppelte Architektur, was eine sehr hohe Flexibilität und Skalierbarkeit bietet. AgentGym-RL umfasst verschiedene reale Szenarien und unterstützt die gängigsten Algorithmen des Verstärkenden Lernens, um die Entscheidungsfähigkeit der Agenten insgesamt zu verbessern.

Um die Trainingswirkung weiter zu optimieren, hat das Forschungsteam auch eine Trainingsmethode namens ScalingInter-RL vorgeschlagen. Diese Methode passt die Anzahl der Interaktionen in Stufen an und hilft den Agenten, in der frühen Phase grundlegende Fähigkeiten zu erlernen, und erhöht anschließend allmählich die Anzahl der Interaktionen, um vielfältigere Problemlösungsstrategien zu fördern. Dieses Gleichgewicht zwischen Exploration und Exploitation ermöglicht es den Agenten, bei komplexen Aufgaben stabil zu lernen und zu entscheiden.

Im Experiment haben die Forscher Qwen2.5-3B und Qwen2.5-7B als Basismodelle verwendet, um die Leistung von AgentGym-RL und ScalingInter-RL in fünf unterschiedlichen Szenarien zu bewerten. Die Ergebnisse zeigten, dass Agenten, die mit AgentGym-RL trainiert wurden, in 27 Aufgaben besser abschnitten als mehrere kommerzielle Modelle. Das Forschungsteam plant, das gesamte AgentGym-RL-Framework, einschließlich Code und Datensatz, öffentlich zugänglich zu machen, um mehr Forschern zu helfen, intelligente Agenten zu entwickeln.

Das AgentGym-RL-Framework umfasst verschiedene Szenarien wie Netzwerknavigation, tiefes Suchen, digitale Spiele, sensorische Aufgaben und wissenschaftliche Experimente. Die Agenten müssen in diesen Szenarien über starke Entscheidungsfähigkeiten und Anpassungsfähigkeit verfügen, um komplexe Aufgaben zu bewältigen.

Projekt: https://agentgym-rl.github.io/

Wichtige Punkte:

🌐 Das AgentGym-RL-Framework bietet eine neue Methode, um große Sprachmodelle (LLM) durch Verstärkendes Lernen zu trainieren und ihre Entscheidungsfähigkeit für komplexe Aufgaben zu verbessern.

🔄 Die Trainingsmethode ScalingInter-RL passt die Anzahl der Interaktionen in Stufen an und hilft den Agenten, ein effektives Gleichgewicht zwischen Exploration und Exploitation im Training zu erreichen.

🏆 Die Experimente zeigten, dass das AgentGym-RL-Framework die Leistung der Agenten deutlich verbessert hat und sie sogar über mehrere kommerzielle Modelle hinausgegangen sind. Es hat die Fähigkeit, mit führenden proprietären großen Modellen mithalten zu können.