गूगल टीम के नवीनतम शोध ने यह प्रस्तावित किया है कि बड़े मॉडल का उपयोग मानवों के स्थान पर प्राथमिकता लेबलिंग के लिए किया जा सकता है, और इससे RLHF के समान परिणाम प्राप्त किए जा सकते हैं। शोधकर्ताओं ने RLAIF और RLHF की जीत की दर की तुलना करके पाया कि उनकी लोकप्रियता समान है, दोनों 50% है। यह शोध प्रमाणित करता है कि RLAIF मानव लेबलर्स पर निर्भर किए बिना RLHF के समान सुधार प्रभाव उत्पन्न कर सकता है।