Das OpenAI-Team hat einen Benchmark namens PaperBench vorgestellt, der die Fähigkeit von KI-Agenten bewertet, fortschrittliche KI-Forschung zu replizieren. Der Test erfordert von KI-Agenten, 20 wichtige und mündlich vorgestellte Arbeiten der International Conference on Machine Learning (ICML) 2024 von Grund auf zu replizieren. Dies beinhaltet das Verständnis der Beiträge der Arbeit, die Entwicklung einer Codebasis und die erfolgreiche Durchführung von Experimenten.

OpenAI, ChatGPT, Künstliche Intelligenz, KI

Um die Objektivität der Bewertung sicherzustellen, haben die Forscher detaillierte Bewertungsmaßstäbe entwickelt. Diese Maßstäbe zerlegen jede Replikationsaufgabe in mehrere hierarchische Unteraufgaben und legen klare Bewertungsstandards fest. PaperBench umfasst insgesamt 8316 einzeln bewertbare Aufgaben. Alle Bewertungsmetriken wurden in Zusammenarbeit mit den Autoren der jeweiligen Arbeiten entwickelt, um Genauigkeit und Validität zu gewährleisten.

Für eine umfassende Bewertung hat das Forschungsteam außerdem ein automatisches Bewertungssystem auf Basis großer Sprachmodelle (LLMs) entwickelt. Dieses System kann die Replikationsversuche von KI-Agenten anhand der vordefinierten Bewertungsmaßstäbe bewerten. Gleichzeitig wurde für dieses Bewertungssystem ein unabhängiger Benchmark erstellt, um seine Leistung zu evaluieren.

Nach der Bewertung mehrerer führender KI-Modelle zeigte sich, dass der beste Agent Claude3.5Sonnet (neue Version) war, mit einer durchschnittlichen Replikationsbewertung von 21,0 %. Um diese Ergebnisse weiter zu validieren, haben die Forscher auch mehrere führende Doktoranden im Bereich Machine Learning eingeladen, einen Teil der PaperBench-Aufgaben zu bearbeiten. Die Ergebnisse zeigen, dass aktuelle KI-Modelle die Replikationsfähigkeiten von Menschen noch nicht übertreffen.

Um die weitere Forschung voranzutreiben, hat das OpenAI-Team beschlossen, den entwickelten Code Open Source bereitzustellen, damit mehr Forscher diese Plattform nutzen und die technischen Fähigkeiten von KI-Agenten sowie ihr Potenzial bei der Replikation von KI-Forschung eingehender untersuchen können.

Projektcode: https://github.com/openai/preparedness/tree/main/project/paperbench

Wichtigste Punkte:

🌟 PaperBench ist ein neuer Benchmark zur Bewertung der Fähigkeit von KI-Agenten, KI-Forschung zu replizieren, basierend auf 20 ICML 2024-Arbeiten.

🔍 Der Test umfasst 8316 einzeln bewertbare Aufgaben, wobei die Bewertungsmaßstäbe gemeinsam mit den Autoren der Arbeiten entwickelt wurden.

🤖 Claude3.5Sonnet ist das beste Modell im Test, übertrifft aber immer noch nicht die Fähigkeiten der besten menschlichen Forscher.