Un nuevo estudio del equipo de Google propone que el uso de modelos grandes para realizar el etiquetado de preferencias, en lugar de humanos, puede lograr resultados similares a los de RLHF (Reinforcement Learning from Human Feedback). Los investigadores, al comparar las tasas de éxito de RLAIF (Reinforcement Learning from AI Feedback) y RLHF, encontraron que su popularidad es equivalente, ambas con un 50%. Esta investigación demuestra que RLAIF puede generar mejoras comparables a las de RLHF sin depender de anotadores humanos.