Im Kontext der zunehmenden globalen Wettbewerbe im Bereich Künstliche Intelligenz haben die Shanghai Jiao Tong University und das Team von DeepInnovation erfolgreich eine bemerkenswerte Leistung erzielt, indem sie beim sogenannten „Letzten Test des Menschen“ (HLE) mit 32,1 Punkten erstmals die Schwelle von 30 Punkten überschritten. Dieses Testset ist für seine außergewöhnliche Schwierigkeit bekannt. Früher konnten keine Modelle mehr als 10 Punkte erreichen, und selbst kürzlich lag der höchste Wert bei 26,9 Punkten, den Kimi-Research und Gemini Deep Research gemeinsam erzielten.

Diese Forschung stellte ein Werkzeug-erweitertes Inferenz-Intelligen-System namens X-Master sowie ein Multi-Agenten-Arbeitsablaufsystem namens X-Masters vor. Diese Lösung zeigte nicht nur technische Stärken, sondern wurde auch open source bereitgestellt, um die Zusammenarbeit und Entwicklung im Bereich KI weiter voranzutreiben.

image.png

Das zentrale Konzept von X-Master besteht darin, den dynamischen Prozess menschlicher Forscher nachzuahmen, Probleme zu lösen. Dabei kann X-Master nahtlos zwischen internem Denken und externen Tools wechseln. Wenn X-Master auf ein Problem trifft, das es nicht lösen kann, schreibt es den Handlungsplan in Code, führt diesen Code mit verschiedenen Tools (wie NumPy und SciPy) aus und integriert die Ergebnisse in das Wissenssystem des Intelligen-Systems. Dieser Prozess bildet einen effizienten Feedback-Loop, der es dem System ermöglicht, seinen Denkprozess kontinuierlich zu optimieren.

Die Gestaltung von X-Masters ist komplexer und folgt einem verteilten-gestackten Agenten-Arbeitsablauf. Dies ermöglicht eine größere Tiefe und Breite der Schlussfolgerungen. Während der Verteilungsphase arbeiten mehrere Lösungsmodule parallel und generieren verschiedene Lösungen. Gleichzeitig bewerten und verbessern kritische Agenten diese Lösungen. Anschließend fasst ein Umformungs-Agent alle Ausgaben zu einer besseren Lösung zusammen und ein Auswahl-Agent wählt am Ende die beste Antwort aus.

In diesem Test zeigte sich auch die Leistung von X-Masters im Bereich Biologie / Medizin besonders hervorragend, wobei es bestehende Systeme übertraf und seine Stärke bei komplexen Problemen unter Beweis stellte.

„Der letzte Test des Menschen“ wurde Anfang dieses Jahres vom AI Safety Center und Scale AI ins Leben gerufen, um den Intelligenzlevel von KI-Systemen zu bewerten. Die Aufgaben stammen von über 1000 Wissenschaftlern aus mehr als 500 Institutionen und sind äußerst anspruchsvoll.