Recientemente, el equipo de Google DeepMind ha colaborado con el laboratorio LIT AI de la Universidad Johannes Kepler Linz para llevar a cabo una nueva investigación sobre los modelos de lenguaje de inteligencia artificial. Han adoptado la tecnología de afinación por refuerzo (RLFT) con el objetivo de mejorar la capacidad de toma de decisiones del modelo de lenguaje. El enfoque principal de esta investigación es resolver algunos problemas clave que surgen durante el proceso de toma de decisiones mediante un entrenamiento intensificado basado en la cadena de razonamiento.
Con la aplicación de grandes volúmenes de datos, los modelos de lenguaje existentes ya han demostrado una capacidad sobresaliente para procesar texto y, incluso, tomar decisiones basadas en conocimiento en entornos interactivos. Sin embargo, estos modelos tienden a tener problemas prácticos al momento de tomar decisiones reales, aunque puedan deducir estrategias correctas, no las ejecutan de manera efectiva. Además, tienden a elegir opciones que ofrecen mayores beneficios a corto plazo, mientras que los modelos más pequeños a menudo repiten acciones comunes debido a sesgos de frecuencia.
Los métodos tradicionales de aprendizaje por refuerzo, como el algoritmo UCB, pueden equilibrar en cierta medida la exploración y la explotación, pero aún no resuelven completamente el desajuste entre la推理 y la acción del modelo. Por ello, el equipo de DeepMind innovó al introducir la técnica de afinación por refuerzo, utilizando cadenas de razonamiento generadas por el propio modelo como señal de entrenamiento. El sistema evalúa la recompensa correspondiente a cada paso de razonamiento, lo que fomenta que el modelo priorice soluciones de acción lógicamente consistentes y eficaces.
En la implementación práctica, el modelo genera una secuencia que incluye el razonamiento y las acciones en función de las instrucciones de entrada y la historia de acciones y recompensas. Se optimiza mediante evaluación basada en montecarlo y estimación de ventaja general. Si se lleva a cabo una acción ineficaz, se activa un mecanismo de penalización. Además, la introducción de la técnica de moldeo de recompensas no solo garantiza la normatividad de la salida, sino que también mantiene espacio para la exploración.
En los experimentos, el equipo investigador probó un modelo de multi-brazo (Multi-Armed Bandit). En la prueba de 10 brazos, la cobertura de acciones del modelo de 2B parámetros mejoró en 12 puntos porcentuales. En la prueba de 20 brazos, aunque el margen de mejora fue menor, la tasa de sesgo de frecuencia disminuyó del 70% al 35%, mostrando la efectividad de la investigación. Los resultados del experimento de tres en raya indicaron que la tasa de victorias del modelo frente a oponentes aleatorios aumentó cinco veces, y su retorno promedio frente a un agente proxy de búsqueda de Monte Carlo óptimo pasó de -0,95 a cero. Además, la probabilidad de generar un razonamiento correcto en el modelo de 27B fue del 87%, mientras que sin afinación solo el 21% logró realizar acciones óptimas. Esta serie de datos demuestra plenamente la efectividad de la afinación por refuerzo en reducir la brecha entre la inferencia y la acción.
Foco destacado:
📊 La investigación utiliza la tecnología de afinación por refuerzo (RLFT) para mejorar la capacidad de toma de decisiones del modelo de lenguaje de IA.
🧩 Mediante el entrenamiento basado en cadenas de razonamiento generadas por sí mismas, se mejora la lógica de razonamiento y la selección de acciones del modelo.
🏆 Los experimentos muestran que el modelo mejoró significativamente su rendimiento en los modelos de multi-brazo y tres en raya, reduciendo la brecha entre la inferencia y la ejecución.