Microsoft lanza el marco de aprendizaje por refuerzo Agent Lightning, afirmando que puede entrenar cualquier sistema de agente de IA

AIbase基地

Publicado elNoticias de IA · 8 minutos de lectura · Aug 7, 2025

El Laboratorio de Microsoft lanzó un nuevo marco de entrenamiento de aprendizaje por refuerzo llamado Agent Lightning, diseñado para resolver los desafíos de generalidad y flexibilidad que enfrentan los sistemas de agentes de IA durante el proceso de entrenamiento. Este marco es capaz de realizar un entrenamiento uniforme de aprendizaje por refuerzo para agentes de IA con diferentes arquitecturas mediante un diseño desacoplado innovador.

Aunque los grandes modelos de lenguaje de IA han demostrado un buen desempeño en tareas como la escritura de código y la creación de contenido, aún tienen limitaciones al enfrentar conversaciones complejas de múltiples rondas, procesamiento de datos en dominios especializados o el uso de herramientas desconocidas. Cómo permitir que estos modelos aprendan y mejoren continuamente en entornos reales se ha convertido en una importante cuestión en el campo de la investigación en inteligencia artificial.

Los métodos tradicionales de aprendizaje supervisado requieren grandes cantidades de datos etiquetados, lo cual es costoso y consume mucho tiempo para tareas interactivas complejas. El aprendizaje por refuerzo, como alternativa, permite a los sistemas de IA aprender a través de mecanismos de recompensa y castigo, lo que los hace más adecuados para optimizar grandes modelos en función del feedback del entorno real.

Enlace al artículo: https://arxiv.org/pdf/2508.03680

No obstante, los marcos actuales de aprendizaje por refuerzo están principalmente diseñados para tareas únicas, lo que dificulta adaptarse a las características de los agentes de IA que necesitan realizar conversaciones de múltiples rondas, llamar a herramientas externas o ejecutar flujos de tareas complejos. Las diferencias en las arquitecturas de los agentes de IA también hacen difícil el entrenamiento generalizado.

La innovación principal de Agent Lightning radica en su enfoque de diseño desacoplado, que separa completamente el proceso de ejecución del agente de IA del proceso de entrenamiento del aprendizaje por refuerzo. Este marco abstrae el proceso de ejecución del agente de IA como un proceso de decisión de Markov (MDP), describiendo el comportamiento del agente a través de ciclos de estado, acción y recompensa.

En este diseño, el estado representa el estado de operación del agente de IA en un momento dado, la acción corresponde a la salida de texto del modelo de lenguaje grande, y la recompensa es una calificación del efecto de la acción. A través de esta abstracción, cualquier proceso de ejecución de un agente de IA construido con cualquier marco, como LangChain, OpenAI Agents SDK o AutoGen, puede convertirse en un formato de interfaz de datos uniforme.

Para optimizar el efecto del entrenamiento, Agent Lightning desarrolló algoritmos de aprendizaje por refuerzo jerárquico llamados LightningRL. Este algoritmo puede distribuir razonablemente la recompensa total de la tarea a cada paso de acción en la trayectoria, permitiendo que el modelo grande comprenda claramente el efecto de cada operación, logrando así un aprendizaje más eficiente.

En cuanto a la arquitectura del sistema, Agent Lightning utiliza un diseño de "separación entre entrenamiento y agente", que incluye dos componentes principales: el servidor Agent Lightning y el cliente Agent Lightning. El servidor se encarga de gestionar el proceso de entrenamiento de aprendizaje por refuerzo y la optimización de los parámetros del modelo, mientras que el cliente se encarga de ejecutar el agente, recopilar datos y comunicarse con el servidor. Este diseño de arquitectura permite una separación completa entre el proceso de entrenamiento y la ejecución del agente.

En pruebas prácticas, Agent Lightning mostró un buen rendimiento en varios escenarios. En tareas de conversión de texto a SQL, un sistema multiagente construido con LangChain logró mejoras continuas y estables. En tareas de RAG (generación potenciada por recuperación), el agente basado en OpenAI Agents SDK mostró mejoras continuas en preguntas y respuestas abiertas complejas. En tareas de preguntas matemáticas, el agente matemático construido con AutoGen aprendió a usar eficientemente la herramienta calculadora para realizar cálculos precisos.

La presentación de Agent Lightning proporciona una nueva ruta tecnológica para el campo del entrenamiento de agentes de IA. Su diseño de generalidad permite que cualquier arquitectura de agente de IA pueda recibir entrenamiento sin modificar el código. La arquitectura flexible soporta diversos escenarios de aplicación, como colaboración entre múltiples agentes, flujos dinámicos y llamadas a herramientas complejas. El diseño distribuido ofrece soporte para el entrenamiento a gran escala.

Desde una perspectiva del desarrollo tecnológico, Agent Lightning representa un avance importante en la dirección de estandarización y modularización de la tecnología de entrenamiento de agentes de IA. A través del enfoque de diseño desacoplado, este marco tiene la esperanza de impulsar la mejora continua del ecosistema de entrenamiento de agentes de IA, sentando las bases para construir sistemas de IA más inteligentes y adaptables.

Anthropic lanza Claude for Chrome: la competencia por el agente de navegador de IA entra en fase intensa

Anthropic lanza la versión preliminar de Claude for Chrome, un agente de IA basado en navegador. Disponible para suscriptores Max (1000 usuarios, $100-$200/mes), otros pueden unirse a la lista de espera. La extensión permite interactuar en Sidecar, manteniendo contexto y realizando acciones bajo autorización.....

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Microsoft lanza el marco de aprendizaje por refuerzo Agent Lightning, afirmando que puede entrenar cualquier sistema de agente de IA

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Sesame completa una financiación de 250 millones de dólares en la ronda B, su revolucionaria voz de IA atrae a cientos de miles de usuarios que prueban el producto, la versión beta de la aplicación se lanza al mismo tiempo

Evento destacado de OpenAI para desarrolladores: ChatGPT se vuelve plataforma, se presentan agentes de IA propios y modelos de élite

Google lanza el servidor MCP de datos públicos para ayudar a los agentes de IA a obtener datos confiables

ByteSeed presenta un nuevo marco AgentGym-RL: mejora la capacidad de toma de decisiones de los modelos de lenguaje a gran escala

Sarvam lanza el agente de inteligencia artificial Samvaad para voz y chat en WhatsApp que admite 11 idiomas indios

Nuevo lanzamiento de MuleRun Financial Agent, inicia una nueva era de inversión inteligente

La empresa de atención al cliente de IA Sierra, fundada por el ex CEO de Salesforce, alcanza una valoración de 10 mil millones de dólares

Se informa que DeepSeek lanzará un modelo de agente de IA potente a finales de año

Prime Intellect presenta un entorno de plataforma abierta para combatir la tendencia hacia el cierre en el campo del aprendizaje por refuerzo de la IA

Anthropic lanza Claude for Chrome: la competencia por el agente de navegador de IA entra en fase intensa

Noticias de IA relacionadas recomendadas

Sesame completa una financiación de 250 millones de dólares en la ronda B, su revolucionaria voz de IA atrae a cientos de miles de usuarios que prueban el producto, la versión beta de la aplicación se lanza al mismo tiempo

Evento destacado de OpenAI para desarrolladores: ChatGPT se vuelve plataforma, se presentan agentes de IA propios y modelos de élite

Google lanza el servidor MCP de datos públicos para ayudar a los agentes de IA a obtener datos confiables

ByteSeed presenta un nuevo marco AgentGym-RL: mejora la capacidad de toma de decisiones de los modelos de lenguaje a gran escala

Sarvam lanza el agente de inteligencia artificial Samvaad para voz y chat en WhatsApp que admite 11 idiomas indios

Nuevo lanzamiento de MuleRun Financial Agent, inicia una nueva era de inversión inteligente

La empresa de atención al cliente de IA Sierra, fundada por el ex CEO de Salesforce, alcanza una valoración de 10 mil millones de dólares

Se informa que DeepSeek lanzará un modelo de agente de IA potente a finales de año

Prime Intellect presenta un entorno de plataforma abierta para combatir la tendencia hacia el cierre en el campo del aprendizaje por refuerzo de la IA

Anthropic lanza Claude for Chrome: la competencia por el agente de navegador de IA entra en fase intensa

GEO Services