Mit der Entwicklung der künstlichen Intelligenz haben große Sprachmodelle wie GPT-4 durch ihre Leistungsfähigkeit tiefgreifende Auswirkungen auf die Gesellschaft. Eine neue Methode, OPO, ermöglicht die Echtzeit-dynamische Ausrichtung von Werten, ohne das Modell neu trainieren zu müssen. Diese Methode ist einfach und schnell anzuwenden.
Forscher haben die OPO-Methode angewendet, um große Sprachmodelle an rechtliche und ethische Standards auszurichten. Die Sicherheit der großen Sprachmodelle selbst gewinnt an Bedeutung, und im Bereich der Echtzeit-dynamischen Wertorientierung wurden bahnbrechende Fortschritte erzielt. Die OPO-Methode benötigt kein Training und ist sowohl für proprietäre als auch für Open-Source-Sprachmodelle anwendbar.
Der OPO-Code wurde auf GitHub veröffentlicht. Die Forscher haben drei von Menschen annotierte Testbenchmarks sowie zwei von Modellen automatisch generierte Testbenchmarks erstellt.