AgentBench: Benchmark für KI-Agenten

Ein Team der Tsinghua-Universität und anderer Institutionen hat AgentBench veröffentlicht, den ersten systematischen Benchmark für KI-Agenten. Dieser Benchmark bewertet umfassend 25 verschiedene Sprachmodelle. Die Ergebnisse zeigen, dass GPT-4 in komplexen Umgebungen hervorragend abschneidet und Top-Sprachmodelle aus dem kommerziellen Bereich einen deutlichen Vorteil gegenüber Open-Source-Modellen aufweisen. Das Forschungsteam empfiehlt, die Lernfähigkeit von Open-Source-Modellen weiter zu verbessern.