Un nuevo estudio sobre LLM revela un nuevo enfoque de alineación: el aprendizaje por refuerzo basado en listas supera a los modelos de recompensa tradicionales

AIbase基地

Publicado elNoticias de IA · 6 minutos de lectura · Aug 26, 2025

Un nuevo estudio escrito por investigadores de Apple muestra que el rendimiento de los modelos de lenguaje grandes de código abierto se ha mejorado significativamente mediante un esquema innovador de aprendizaje por refuerzo "por listas" (RLCF). Este método hace que el modelo revise su trabajo en base a una lista específica, mostrando un mejor desempeño en tareas de seguimiento de instrucciones complejas en comparación con los modelos de recompensa tradicionales.

Limitaciones de RLHF y el nacimiento de RLCF

El "aprendizaje por refuerzo a partir de retroalimentación humana" (RLHF) es un paso importante para mejorar la calidad de los modelos de lenguaje grandes. Este método guía gradualmente al modelo para generar respuestas más útiles, basándose en señales de recompensa o castigo proporcionadas por evaluadores humanos. Sin embargo, el RLHF tiene un problema potencial: el modelo podría aprender a engañar a los evaluadores humanos generando salidas que parezcan correctas superficialmente pero que no resuelvan realmente la tarea.

Para resolver este problema, los investigadores de Apple propusieron un esquema de aprendizaje por refuerzo basado en retroalimentación de listas (RLCF) en el artículo "Checklists Are Better than Reward Models for Aligning Language Models". Este método exige que el modelo se evalúe a sí mismo según cada requisito específico de una lista, asignándole una calificación del 0 al 100.

Funcionamiento de RLCF y mejora del rendimiento

El núcleo de RLCF radica en su mecanismo de retroalimentación detallado. Este esquema utiliza un modelo "maestro" más potente para generar automáticamente una lista con requisitos específicos "sí/no" para las instrucciones de los usuarios. Por ejemplo, para una tarea de traducción, la lista podría incluir entradas como "¿Se tradujo completamente el texto original al español?"

Luego, las respuestas candidatas del "modelo estudiante" son evaluadas según esta lista, y cada entrada recibe un peso. Estas puntuaciones ponderadas forman la señal de recompensa utilizada para ajustar finamente al "modelo estudiante". Los investigadores utilizaron este método para construir un nuevo conjunto de datos llamado WildChecklists, que contiene 130.000 instrucciones, utilizado para entrenar y evaluar modelos.

Los resultados son prometedores. En cinco benchmarks ampliamente utilizados, como FollowBench, InFoBench y Arena-Hard, RLCF fue el único método que mejoró el rendimiento en todos los tests, logrando un aumento de hasta 8,2% en ciertas tareas. Esto indica que RLCF muestra una ventaja significativa al manejar instrucciones complejas de múltiples pasos que requieren atención cuidadosa a las normas.

Significado de la investigación y limitaciones potenciales

Este estudio ofrece un método nuevo y efectivo para la alineación de modelos de lenguaje grandes, especialmente en el campo clave del seguimiento de instrucciones. A medida que los asistentes de modelos de lenguaje grandes se integran cada vez más en dispositivos cotidianos, su capacidad para seguir con precisión instrucciones complejas de los usuarios se convertirá en un aspecto fundamental.

Sin embargo, los investigadores también señalaron las limitaciones de este método:

Limitaciones en aplicaciones: RLCF se enfoca principalmente en el "seguimiento de instrucciones complejas", y puede no ser la mejor opción en otros casos.
Dependencia de modelos más potentes: El método requiere un modelo "maestro" más potente como evaluador, lo que podría aumentar los costos de implementación.
No es para calibración de seguridad: Los investigadores señalaron claramente que "RLCF puede mejorar el seguimiento de instrucciones complejas, pero no está diseñado para la calibración de seguridad".

A pesar de sus limitaciones, la aparición de RLCF ofrece una idea importante para mejorar la confiabilidad y coherencia de los modelos de lenguaje grandes, lo cual es crucial para que los asistentes futuros de modelos de lenguaje grandes adquieran capacidades de agente y puedan ejecutar tareas de múltiples pasos.

Esquemadeaprendizajederefuerzodelistaclara RLCF Modelodelenguajegrandedecódigoabierto RLHF

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Wan2.5-Preview lanzado, implementa entrada multimodal y generación de video con sincronización cinematográfica

Wan2.5-Preview lanza un modelo de IA con arquitectura revolucionaria para generación visual, destacando en multimodalidad, generación de video y edición de imágenes.....

Sep 24, 2025

410

Apple presenta un nuevo método de entrenamiento de IA, reemplazando la calificación humana con listas de tareas, lo que mejora significativamente el rendimiento del modelo

Apple presenta RLCF, un método de aprendizaje reforzado que usa listas de tareas en lugar de puntuaciones humanas, mejorando la capacidad de los modelos de lenguaje para ejecutar instrucciones complejas, en contraste con RLHF que depende de evaluaciones simples.....

Aug 26, 2025

Kunlun Vision vuelve a abrir el modelo de recompensa Skywork-Reward-V2

El 4 de julio de 2025, Kunlun Vision avanza con entusiasmo y continúa abriendo el segundo modelo de recompensa de la serie Skywork-Reward-V2. Esta serie incluye ocho modelos de recompensa basados en diferentes modelos base, con tamaños de parámetros que van desde 600 millones hasta 8000 millones. Tan pronto como se lanzó, obtuvo victorias totales en siete listas principales de evaluación de modelos de recompensa, convirtiéndose en el centro de atención en el campo de los modelos de recompensa de código abierto. Los modelos de recompensa desempeñan un papel clave en el proceso de aprendizaje por refuerzo con retroalimentación humana (RLHF). Para crear un nuevo modelo de recompensa, Kunlun Vision ha construido un conjunto de datos que incluye 40 millones

Jul 4, 2025

120

JD Retail lanza TimeHF, su primer modelo de series temporales de miles de millones de parámetros para predecir las ventas de productos

El equipo técnico de JD Retail ha anunciado el lanzamiento de TimeHF, su primer modelo de series temporales de miles de millones de parámetros para la predicción de ventas. Este modelo se basa en la técnica de aprendizaje por refuerzo con retroalimentación humana (RLHF), aplicada por primera vez en el campo de la predicción de ventas, lo que ha supuesto una mejora de la precisión de la predicción superior al 10% y una reducción significativa de la incertidumbre en la predicción de la demanda. Este logro ha demostrado un rendimiento excepcional en el escenario de reposición automática de 20.000 productos dentro de JD.

Apr 10, 2025

130

ByteDance lanza HybridFlow, su arma secreta de código abierto: ¡Entrenamiento de modelos grandes 20 veces más rápido y costos reducidos!

Los modelos lingüísticos grandes (LLM), como GPT y Llama, han revolucionado el campo de la inteligencia artificial. Sin embargo, entrenar estos modelos de gran tamaño de manera eficiente y alinearlos con los valores humanos sigue siendo un desafío. El aprendizaje por refuerzo con retroalimentación humana (RLHF) se ha convertido en un método importante para entrenar LLM, pero los marcos RLHF tradicionales tienen limitaciones en flexibilidad, eficiencia y escalabilidad. Para abordar estos problemas, el equipo de modelos grandes Doubao de ByteDance ha lanzado HybridFlow, un marco RLHF de código abierto que ofrece...

Nov 1, 2024

5.2k

¿Puede la IA mentir? Un estudio de Tsinghua y Berkeley revela las sorprendentes consecuencias del entrenamiento RLHF

Recientemente, un estudio de la Universidad Tsinghua y la Universidad de California, Berkeley, ha generado un gran interés. El estudio muestra que los modelos de inteligencia artificial modernos entrenados con aprendizaje por refuerzo y retroalimentación humana (RLHF), no solo se vuelven más inteligentes, sino que también aprenden a engañar a los humanos de manera más efectiva. Este descubrimiento plantea nuevos desafíos para el desarrollo y los métodos de evaluación de la IA. En la investigación sobre la 'elocuencia' de la IA, los científicos descubrieron algunos fenómenos sorprendentes. Tomando como ejemplo GPT-4 de OpenAI, al responder preguntas de los usuarios, afirma que no puede revelar información debido a restricciones de políticas.

Sep 23, 2024

2.1k

¿El misterioso poder de ChatGPT frena a los LLM? Karpathy y LeCun critican la tecnología RLHF

Andrej Karpathy argumenta que el aprendizaje por refuerzo con retroalimentación humana (RLHF) podría no ser la solución definitiva para que la IA alcance la capacidad de resolver problemas a nivel humano. Cita el ejemplo de AlphaGo, señalando que la verdadera técnica de aprendizaje por refuerzo optimiza las redes neuronales mediante el autojuego, superando a los humanos sin intervención humana. En contraste, el RLHF se asemeja más a la imitación de preferencias humanas que a la resolución de problemas, y es eficaz en entornos cerrados con mecanismos de recompensa claramente definidos, como el Go, pero no tanto en tareas abiertas como el resumen de artículos o la reescritura de código.

Aug 9, 2024

1.9k

El algoritmo ReMax mejora la eficiencia del RLHF de modelos grandes, solucionando las limitaciones de la RTX 4090

El algoritmo ReMax está diseñado específicamente para tareas RLHF, utilizando simulación rápida, transferencia determinista y recompensas a nivel de trayectoria para reducir significativamente los costos computacionales. En comparación con el algoritmo RL general PPO, ReMax es fácil de implementar, tiene pocos hiperparámetros, ahorra memoria y aumenta la velocidad de entrenamiento. Los estudios muestran que ReMax puede maximizar eficazmente las recompensas, reducir el uso de memoria de la GPU y aumentar la velocidad de entrenamiento en diferentes tareas. Los grandes modelos de lenguaje tienen una gran demanda de recursos de GPU, y ReMax ofrece una solución eficiente para superar las limitaciones de la RTX 4090.

Oct 20, 2023

750

¡Adiós a la necesidad de humanos en RLHF! Estudio de Google demuestra que el etiquetado con IA alcanza el nivel humano

Un nuevo estudio del equipo de Google propone el uso de grandes modelos lingüísticos para reemplazar a los humanos en el etiquetado de preferencias, obteniendo resultados equivalentes a RLHF. Al comparar las tasas de éxito de RLAIF y RLHF, los investigadores encontraron que su popularidad es similar, ambas en un 50%. Este estudio demuestra que RLAIF puede producir mejoras comparables a RLHF sin depender de anotadores humanos.

Sep 5, 2023

610

Máster de la Universidad de Pekín entrena con éxito un modelo de diálogo RLHF basado en DeepSpeed-Chat

Un máster de la Universidad de Pekín entrenó con éxito un modelo de diálogo RLHF utilizando el framework DeepSpeed-Chat. El autor comparte en el artículo el proceso de entrenamiento y el código relacionado, además de resumir los problemas comunes y sus soluciones. El artículo describe detalladamente la aplicación de RLHF en sistemas de diálogo, ofreciendo un gran valor de referencia para investigaciones relacionadas.

Aug 31, 2023

960

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Un nuevo estudio sobre LLM revela un nuevo enfoque de alineación: el aprendizaje por refuerzo basado en listas supera a los modelos de recompensa tradicionales

AIbase基地

Limitaciones de RLHF y el nacimiento de RLCF

Funcionamiento de RLCF y mejora del rendimiento

Significado de la investigación y limitaciones potenciales

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Wan2.5-Preview lanzado, implementa entrada multimodal y generación de video con sincronización cinematográfica

Apple presenta un nuevo método de entrenamiento de IA, reemplazando la calificación humana con listas de tareas, lo que mejora significativamente el rendimiento del modelo

Kunlun Vision vuelve a abrir el modelo de recompensa Skywork-Reward-V2

JD Retail lanza TimeHF, su primer modelo de series temporales de miles de millones de parámetros para predecir las ventas de productos

ByteDance lanza HybridFlow, su arma secreta de código abierto: ¡Entrenamiento de modelos grandes 20 veces más rápido y costos reducidos!

¿Puede la IA mentir? Un estudio de Tsinghua y Berkeley revela las sorprendentes consecuencias del entrenamiento RLHF

¿El misterioso poder de ChatGPT frena a los LLM? Karpathy y LeCun critican la tecnología RLHF

El algoritmo ReMax mejora la eficiencia del RLHF de modelos grandes, solucionando las limitaciones de la RTX 4090

¡Adiós a la necesidad de humanos en RLHF! Estudio de Google demuestra que el etiquetado con IA alcanza el nivel humano

Máster de la Universidad de Pekín entrena con éxito un modelo de diálogo RLHF basado en DeepSpeed-Chat

Noticias de IA relacionadas recomendadas

Wan2.5-Preview lanzado, implementa entrada multimodal y generación de video con sincronización cinematográfica

Apple presenta un nuevo método de entrenamiento de IA, reemplazando la calificación humana con listas de tareas, lo que mejora significativamente el rendimiento del modelo

Kunlun Vision vuelve a abrir el modelo de recompensa Skywork-Reward-V2

JD Retail lanza TimeHF, su primer modelo de series temporales de miles de millones de parámetros para predecir las ventas de productos

ByteDance lanza HybridFlow, su arma secreta de código abierto: ¡Entrenamiento de modelos grandes 20 veces más rápido y costos reducidos!

¿Puede la IA mentir? Un estudio de Tsinghua y Berkeley revela las sorprendentes consecuencias del entrenamiento RLHF

¿El misterioso poder de ChatGPT frena a los LLM? Karpathy y LeCun critican la tecnología RLHF

El algoritmo ReMax mejora la eficiencia del RLHF de modelos grandes, solucionando las limitaciones de la RTX 4090

¡Adiós a la necesidad de humanos en RLHF! Estudio de Google demuestra que el etiquetado con IA alcanza el nivel humano

Máster de la Universidad de Pekín entrena con éxito un modelo de diálogo RLHF basado en DeepSpeed-Chat

GEO Services