Neulich hat Google einen innovativen Prozess für aktives Lernen vorgestellt, der dazu beitragen soll, die Menge an Trainingsdaten erheblich zu reduzieren, die für das Fine-Tuning großer Sprachmodelle erforderlich ist. Laut Experimenten kann diese Methode die Trainingsdatenmenge auf ein Zehntausendstel des ursprünglichen Umfangs reduzieren und die Übereinstimmung des Modells mit den Entscheidungen menschlicher Experten um 65 % erhöhen. In praktischen Anwendungen wie der Klassifizierung von Werbeinhalten oder der Sicherheitsanalyse finanzieller Daten besteht ein hoher Bedarf an hochwertigen Trainingsdaten, doch die Auswahl entsprechender Daten ist nicht nur schwierig, sondern auch äußerst kostspielig.
Bildquelle: Das Bild wurde von einer KI generiert, der Bildlizenzanbieter ist Midjourney
Diese neue Methode startet mit einem initialen Modell, das entweder kein oder nur wenige Beispiele kennt. Der Benutzer definiert über eine Prompt das Zielinhalt, z.B. ob ein bestimmtes Werbeangebot als „Klickfalle“ gilt. Das Ausgangsmodell markiert dann Werbung als Klickfalle oder als gut und generiert eine große Menge an annotierten Daten. Allerdings sind solche Datensätze oft stark unbalanciert, was zu schwacher Erkennungsfähigkeit des Modells führt.
Um dieses Problem zu lösen, gruppieren die Forscher Inhalte, die vom Modell als Klickfalle oder als gut markiert wurden, und stellen fest, dass einige Gruppen sich überschneiden, was darauf hindeutet, dass das Modell in diesen Inhalten leicht falsch urteilt. Daher können aus diesen überschneidenden Gruppen Stichprobenpaare ausgewählt werden, die von Experten bewertet werden, um die Prüfungskosten zu kontrollieren und Stichprobenpaare zu priorisieren, die verschiedene Szenarien abdecken. Die so gewonnenen Stichproben sind wertvoll und decken verschiedene mögliche Fehlerfälle ab.
Während des Feintunings werden die Annotationen durch Experten in zwei Gruppen unterteilt: eine zur Bewertung der Modellkonsistenz und eine zur Feinabstimmung des Modells. Dieser Prozess wird wiederholt, bis das Modell ein Niveau erreicht, das dem von menschlichen Experten entspricht.
Die Google-Experimente verwendeten die Modelle Gemini Nano-1 und Nano-2 und testeten sie an zwei Aufgaben unterschiedlicher Komplexität. Bei jedem Test wurden etwa 100.000 Crowdsourcing-Daten verwendet, obwohl diese stark unbalanciert waren. Die Ergebnisse zeigten, dass die Übereinstimmung zwischen den Experten sehr hoch war, während die Übereinstimmung zwischen den Crowdsourcing-Beschriftungen und den Expertenbewertungen eher gering war. Mit der neuen Methode verbesserte sich die Ausrichtung des Modells mit 3,25 Milliarden Parametern bei der einfachen Aufgabe deutlich, wobei nur 250–450 Daten verwendet wurden – eine deutliche Reduktion im Vergleich zu den 100.000 Daten – und dennoch gute Ergebnisse erzielt wurden.
Zusammenfassend lässt sich sagen, dass Googles neue Methode beweist, dass mit nur wenigen hochwertigen Daten und sicher gestellter Konsistenz der Expertenannotationen (>0,8) auch große Modelle bei der Ausbildung herausragende Leistungen erbringen können.
Wichtige Punkte:
📉 Die Menge an Trainingsdaten kann auf ein Zehntausendstel reduziert werden, und die Genauigkeit des Modells wird verbessert.
🤝 Die neue Methode verlässt sich auf Expertenurteile und Modelliterationen, um die Qualität der Stichproben sicherzustellen.
📊 Die Experimente zeigen, dass mit wenigen hochwertigen Daten sogar bessere Ergebnisse als mit traditionellen großen Datensätzen erzielt werden können.