Im Zuge der kontinuierlichen Fortschritte in der KI-Technologie hat sich die Frage, wie große Modelle die Fähigkeit zur „Parallelen Denkweise“ erlangen können, zu einem Hotspot der Forschung entwickelt. Kürzlich haben das Tencent AI Lab und ein Forschungsteam aus mehreren Universitäten einen neuen Verstärkenden Lernrahmen (RL) namens Parallel-R1 vorgestellt, mit dem große Modelle gelehrt werden sollen, gleichzeitig mehrere Schlussfolgerungswege zu erkunden. Dieser innovative Rahmen bietet neue Ansätze, um komplexe mathematische Schlussfolgerungen zu bewältigen.

image.png

Traditionelle Methoden verlassen sich oft auf überwachtes Mikro-Training (SFT), was nicht nur hohe Anforderungen an die Datenqualität stellt, sondern auch dazu führt, dass Modelle meist nur vorhandene Daten nachahmen und keine eigenständige Lern- und Generalisierungsfähigkeit besitzen. Um diese Probleme zu lösen, wurde der Parallel-R1-Rahmen entwickelt. Das zentrale Ergebnis des Forschungsteams bestand darin, dass man mit einfachen Hinweisen Modellen ermöglichen kann, bei einfachen mathematischen Aufgaben hochwertige parallele Denkdaten zu generieren. Anschließend wird durch eine „schrittweise Unterrichtsmethode“ trainiert: Zuerst lernt das Modell die „Grammatikformate“ für parallele Denkweisen an einfachen Aufgaben, um dann allmählich zu komplexeren mathematischen Problemen überzugehen und dort Verstärkungslernen zu betreiben.

image.png

Zudem schlug das Team eine alternierende Belohnungsstrategie zur Belohnungsgestaltung vor, die geschickt die „Genauigkeit der Lösung“ und die „Vielfalt des Denkens“ ausbalancierte. Während des Trainings erhält das Modell den Großteil der Zeit eine Belohnung für die „Genauigkeit“, während es manchmal zusätzlich belohnt wird, wenn es paralleles Denken verwendet. Diese Strategie verbesserte deutlich die Nutzung von parallelem Denken im Modell und führte zu einer signifikanten Steigerung der Leistung in verschiedenen mathematischen Benchmarks.

Die Experimente zeigten, dass der Parallel-R1-Rahmen nicht nur die Durchschnittsgenauigkeit der Modelle auf mehreren mathematischen Benchmarks um bis zu 8,4 % steigerte, sondern auch in der AIME25-Prüfung eine Leistungssteigerung von 42,9 % erreichte. Die Forscher stellten fest, dass sich die Denkstrategien der Modelle nach dem Training allmählich vom „breiten Abdecken“ im Anfangsstadium zu einer „präzisen Überprüfung“ im späteren Stadium veränderten, was die Vorteile paralleler Denkweise deutlich zeigt.

Der Erfolg von Parallel-R1 eröffnet nicht nur neue Wege für die Schlussfolgerungsfähigkeit großer Modelle, sondern liefert auch neue Ideen für zukünftige KI-Forschungen und zeigt das Potenzial paralleler Denkweise bei der Bewältigung komplexer Aufgaben.