Im raschen Fortschritt der künstlichen Intelligenz ist die Verbesserung der Recherchekapazitäten und Inferenzfähigkeiten von großen Sprachmodellen (LLMs) zu einem beliebten Forschungsthema geworden. Kürzlich hat das Alibaba Tongyi Lab einen neuen Rahmen namens „ZeroSearch“ vorgestellt, der es ermöglicht, dass große Sprachmodelle selbst einen Suchmaschinenähnlichen Prozess simulieren können, um ihre Inferenzfähigkeiten zu verbessern – ohne die tatsächliche Nutzung eines Suchmaschinen-Systems zu erfordern.
Obwohl traditionelle Suchmaschinen leistungsstark sind, sind ihre Ausgabewerte bei der Ausbildung großer Modelle oft unvorhersehbar, was zu Rauschen und Instabilitäten im Trainingsprozess führen kann. Zudem erzeugen Abhängigkeit von echten Suchmaschinen-API-Aufrufen enorme Kosten, was eine großflächige verstärkte Lernung praktisch unmöglich macht. Mit dem Erscheinen von ZeroSearch werden diese Probleme jedoch gelöst. Dieser Rahmen ermöglicht es den Modellen, in einer simulierten Suchumgebung zu lernen und dabei progresstives Rauschentfernen durchzuführen – ohne dass sie mit echten Suchmaschinen interagieren müssen.
Das Herzstück von ZeroSearch ist die Nutzung des verstärkten Lernens (RL) und weniger annotierter Daten zur Feinjustierung großer Modelle, um nützliche Dokumente und Stördokumente zu generieren. Während des Trainings lernt das Modell, Inhalte im Stil echter Suchmaschinen zu erzeugen und gleichzeitig mit verschiedenen Qualitätsstufen von Dokumenten umzugehen. Diese dynamische Anpassungsfähigkeit ermöglicht es dem Modell, bei komplexeren Rechercheaufgaben schnell anzupassen und ein Gleichgewicht zu finden.
Außerdem verwendet ZeroSearch eine kursivische Lernmethode. Zu Beginn des Trainings erhalten Modelle hochwertige Dokumente, während sie im Laufe der Zeit mit Dokumenten gemischt werden, die Rauschen enthalten. Diese schrittweise erhöhte Schwierigkeitsstufe verbessert nicht nur die Inferenzfähigkeit des Modells, sondern auch die Stabilität und Effizienz des Trainings. Nach Abschluss des Trainings ist das Modell in der Lage, die beste Recherchemethode zwischen hochwertigen und weniger qualitativ hochwertigen Dokumenten zu finden.
Forschungsstudien zeigen, dass ZeroSearch auf mehreren Frage-Antwort-Datensätzen hervorragende Ergebnisse erzielt, insbesondere bei einfachen und mehrstufigen Frageantwort-Aufgaben. Dies bedeutet, dass ZeroSearch nicht nur genaue Antworten auf einfache Fragen liefern kann, sondern auch komplexere Anfragen verarbeiten ist.
ZeroSearch bietet neue Perspektiven für das Selbstlernen von großen Modellen und befreit sie von der Abhängigkeit von Suchmaschinen, wodurch groß angelegte verstärkte Lernprozesse wirtschaftlicher und realistischer werden. In Zukunft könnte ZeroSearch in der Verbesserung der Recherchefähigkeiten und der Anwendungsbereiche von LLMs eine noch größere Rolle spielen.