Multimodale große Modelle (MLLM) zeigen zunehmend starkes Potenzial, komplexe Probleme zu lösen. Dennoch sind diese Modelle bei der Verarbeitung komplexer Schlussfolgerungen oft „stur“ und verfügen nicht über ein reflektierendes Denken, was dazu führt, dass sie Schwierigkeiten haben, bei Herausforderungen, die mehrere Versuche erfordern, zurückzublicken. Um dieses Problem zu lösen, hat das Forschungsteam der Shanghai Jiao Tong University und des Shanghai Artificial Intelligence Laboratory ein innovatives Projekt namens MM-HELIX entwickelt, das darauf abzielt, KI beizubringen, wie Menschen langkettiges reflektierendes Denken durchführt.

MM-HELIX ist nicht nur ein Projekt, sondern auch ein umfassendes Ökosystem. Das Team hat zunächst einen Benchmark-Test namens „Endgültige Prüfung“ (MM-HELIX-Benchmark) gebaut, um die Fähigkeit multimodaler großer Modelle zur reflektierenden Schlussfolgerung zu bewerten. Dieser Benchmark-Test umfasst 42 hochkomplexe Aufgaben, die Bereiche wie Algorithmen, Graphentheorie, Rätsel und Strategiespiele abdecken. Die Testergebnisse zeigten, dass selbst die besten Modelle derzeit eine niedrige Genauigkeit aufweisen, insbesondere bei multimodalen Eingaben, wo die Leistung noch schlechter ist. Diese Ergebnisse unterstreichen zweifellos die Bedeutung, die Reflektionsfähigkeit von KI zu verbessern.

image.png

Um multimodale große Modelle besser im Reflektieren zu unterstützen, hat das Forschungsteam auch eine Datenbank namens MM-HELIX-100K erstellt, die 100.000 hochwertige Beispiele enthält. Der Zweck dieser Datenbank besteht darin, den Modellen mit einem „Schritt-Heuristischen Antwortgenerierungsprozess“ (SERG) beizubringen, wie man reflektiert und sich nach dem Lösen einer Aufgabe reflektiert. Dieser Prozess verkürzte deutlich die Lösungszeit und reduzierte effektiv unnötige redundante Überlegungen.

image.png

Zusätzlich hat das Team auch einen adaptiven gemischten Strategieoptimierungsalgorithmus (AHPO) vorgeschlagen, der als intelligenter Tutor fungiert und dem Modell dabei hilft, sich im Lernprozess allmählich von der Abhängigkeit von Expertenwissen zu lösen und stattdessen eigenständig zu erkunden. Dieses dynamische Unterrichtsmechanismus ermöglicht es dem Modell, die Genauigkeit kontinuierlich zu steigern, während es gleichzeitig die Fähigkeit zum eigenständigen Denken entwickelt.

Mit diesen Innovationen verbesserte sich die Genauigkeit des Qwen2.5-VL-7B-Modells, das mit MM-HELIX ausgestattet ist, um 18,6 % in den Benchmark-Tests. Dieser Fortschritt brach nicht nur die Engpässe des ursprünglichen Modells, sondern zeigte auch die starke Generalisierbarkeit der reflektierenden Fähigkeit und bestätigte die Bedeutung dieses Projekts für die Entwicklung der KI.