Un nuevo estudio del equipo de Google propone que el uso de modelos grandes para realizar el etiquetado de preferencias, en lugar de humanos, puede lograr resultados similares a los de RLHF (Reinforcement Learning from Human Feedback). Los investigadores, al comparar las tasas de éxito de RLAIF (Reinforcement Learning from AI Feedback) y RLHF, encontraron que su popularidad es equivalente, ambas con un 50%. Esta investigación demuestra que RLAIF puede generar mejoras comparables a las de RLHF sin depender de anotadores humanos.
¡Adiós a la necesidad de humanos en RLHF! Estudio de Google demuestra que el etiquetado con IA alcanza el nivel humano

新智元
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.