Kürzlich hat das Google DeepMind-Team in Zusammenarbeit mit der LIT AI Lab der Johannes Kepler Universität Linz eine neue Forschung zur künstlichen Intelligenz-Sprachmodellierung durchgeführt. Sie haben die Technik des reinforced learning fine-tuning (RLFT) verwendet, um die Entscheidungsqualität der Sprachmodelle zu verbessern. Der Schwerpunkt dieser Forschung lag darauf, durch verstärkte Ausbildung von Ketten von Gedankengängen bestimmte Probleme im Entscheidungsprozess zu lösen.

Gemini, Google DeepMind, KI, AI

Mit dem Einsatz von Big Data hat sich das bestehende Sprachmodell bereits als überlegen bei der Verarbeitung von Texten erwiesen und ist sogar in der Lage, basierend auf Wissen Entscheidungen in interaktiven Umgebungen zu treffen. Allerdings zeigen diese Modelle oft das Problem, dass sie zwar korrekte Strategien ableiten können, diese jedoch nicht effektiv umsetzen. Außerdem neigen sie dazu, kurzfristig höhere Rendite zu bevorzugen und kleinere Modelle neigen oft zu Frequenzvorurteilen und wiederholen häufig gesehene Aktionen.

Traditionelle Methoden des verstärkten Lernens, wie das UCB-Algorithmus, können zwar in einem gewissen Maße zwischen Erkundung und Nutzung ausbalancieren, lösen jedoch immer noch nicht das Problem der Trennung zwischen logischer Deduktion und tatsächlicher Handlung vollständig. Daher hat das DeepMind-Team innovativ die Technik des reinforced learning fine-tuning eingeführt, wobei die generierten Gedankenkette des Modells als Trainingssignal genutzt wird. Das System bewertet die Belohnungen für jede logische Schrittfolge und motiviert das Modell, logisch konsistente und effiziente Handlungsschritte vorzuziehen.

In der praktischen Implementierung erzeugt das Modell basierend auf Eingabebefehlen und historischen Handlungen und Belohnungen eine Sequenz aus logischen Schlussfolgerungen und Handlungen. Durch Monte-Carlo-Baseline-Abschätzung und generalisierte Vorteilsabschätzung wird optimiert, und wenn unwirksame Aktionen durchgeführt werden, tritt ein Bestrafungsmechanismus ein. Zudem sorgt die Einführung der Reward-Shaping-Technik dafür, dass die Ausgabe normkonform bleibt, während gleichzeitig weiterhin Raum für Erkundung bleibt.

In den Experimenten testeten die Forscher Teams mehrarmige Banditen-Modelle. Im Test mit zehn Armen stieg die Aktionsabdeckung des 2B-Parameter-Modells um 12 Prozentpunkte. Im Test mit zwanzig Armen zeigte sich zwar ein kleinerer Verbesserungsschub, aber die Häufigkeitsvorurteile sanken von 70 % auf 35 %, was die Wirksamkeit der Forschung untermauert. Die Versuche mit Tic-Tac-Toe ergaben, dass das Modell gegen zufällige Gegner die Siegeswahrscheinlichkeit um das Fünffache erhöhte und bei对抗 dem optimalen Monte-Carlo-Tree-Search-Agenten den durchschnittlichen Rückgabewert von -0,95 auf Null reduzierte. Darüber hinaus erreichte das große 27B-Modell eine Wahrscheinlichkeit von 87 % für korrekte logische Schlussfolgerungen, während nur 21 % der unverfeinerten Version optimale Aktionen ausführen konnten. Diese Ergebnisse zeigen deutlich die Effizienz des RLFT bei der Reduktion der Lücke zwischen logischer Deduktion und tatsächlicher Handlung.

Hier die wichtigsten Punkte:

📊 Die Forschung verwendet die Technik des reinforced learning fine-tuning (RLFT), um die Entscheidungsqualität von KI-Sprachmodellen zu verbessern.  

🧩 Durch die Selbstgenerierung von Gedankenkette wird eine effiziente Verbesserung der logischen Schlussfolgerung und Handlungsentscheidung erreicht.  

🏆 Experimente zeigen, dass das Modell in Tests mit mehrarmigen Banditen und Tic-Tac-Toe signifikant bessere Leistungen erzielte und die Lücke zwischen Deduktion und Handlung schloss.