DeepMind presenta Crome: mejorar la alineación de modelos de lenguaje grandes con el feedback humano

AIbase基地

Publicado elNoticias de IA · 6 minutos de lectura · Jul 4, 2025

19.5k

En el campo de la inteligencia artificial, los modelos de recompensa son un componente clave para alinear los grandes modelos de lenguaje (LLMs) con las retroalimentaciones humanas, pero los modelos actuales enfrentan el problema de "hackers de recompensa".

Estos modelos suelen enfocarse en características superficiales, como la longitud o el formato de las respuestas, en lugar de identificar métricas reales de calidad, como la precisión factual y la relevancia. La raíz del problema radica en que los objetivos estándar de entrenamiento no pueden distinguir entre asociaciones falsas presentes en los datos de entrenamiento y factores causales reales. Este fracaso lleva a modelos de recompensa frágiles (RMs), lo que genera estrategias desalineadas. Para resolver este problema, se necesita un nuevo método que utilice el entendimiento causal para entrenar los RMs, de manera que sean sensibles a las propiedades de calidad causal y resistentes a diversas pistas falsas.

Los métodos actuales de modelos de recompensa intentan resolver el problema de "hackers de recompensa" en los sistemas estándar RLHF que dependen de los métodos de Bradley-Terry o de clasificación por pares, incluyendo modificaciones en la arquitectura, ajustes a nivel de estrategia y métodos centrados en datos que involucran conjuntos o verificaciones de coherencia. Los métodos recientes inspirados en la causalidad utilizan regularización MMD para abordar factores falsos predefinidos, o corrigiendo la estimación de efectos causales mediante reescrituras. Sin embargo, estos métodos solo se enfocan en factores falsos predefinidos y no capturan asociaciones desconocidas. Aunque las estrategias mejoradas aún son bastante groseras y los métodos centrados en la evaluación no proporcionan un mecanismo de entrenamiento robusto para los modelos de recompensa frente a variaciones falsas diversas.

Para enfrentar estos desafíos, investigadores de Google DeepMind, la Universidad McGill y MILA - Instituto de Inteligencia Artificial de Quebec han propuesto Crome (Modelado de Recompensas Robusto por Causalidad). El marco Crome se basa en un modelo causal explícito para la generación de respuestas, entrenando los RMs mediante un conjunto de datos de preferencias que incluyen ejemplos contracuálicos generados por modelos de lenguaje grandes, con el fin de diferenciar los factores reales de calidad de las señales superficiales. Además, Crome crea dos tipos de pares de entrenamiento sintéticos: aumentos causales (Causal Augmentations) y aumentos neutrales (Neutral Augmentations), lo que mejora la robustez del modelo y maximiza la precisión de la base de recompensas.

El funcionamiento de Crome se divide en dos fases principales: generar datos contrafácticos con conciencia de atributos basados en un modelo causal y entrenar el modelo de recompensa mediante una pérdida específica sobre los datos combinados. Al evaluar el rendimiento, los investigadores utilizaron varios LLM básicos, incluyendo Gemma-2-9B-IT y Qwen2.5-7B, logrando mejoras significativas en el rendimiento.

Crome muestra un excelente desempeño en múltiples benchmarks, especialmente en seguridad y capacidad de razonamiento, logrando avances notables. Además, demostró un buen desempeño en WildGuardTest, reduciendo la tasa de éxito de ataques a preguntas dañinas, mientras mantenía una tasa de rechazo similar para preguntas benignas.

En el futuro, la investigación de Crome se enfocará en la ampliación de datos causal, impulsando la generación de datos sintéticos y ofreciendo nuevas posibilidades para el entrenamiento de modelos básicos.

Paper: https://arxiv.org/abs/2506.16507

Destacados:
🌟 El marco Crome fue propuesto por instituciones como Google DeepMind, con el objetivo de mejorar la robustez de los modelos de recompensa.
📈 Crome ha mejorado significativamente el desempeño del modelo en varias tareas mediante estrategias de aumento causal y aumento neutral.
🔒 Crome ha demostrado un excelente desempeño en pruebas de seguridad, reduciendo la tasa de éxito de ataques y mejorando la confiabilidad del modelo.

modelo de recompensa nuevos términos de IA LLMs comprensión causal

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Diario de IA: La versión actualizada de Yuanbao de Tencent permite buscar imágenes y videos con una sola frase; WeChat Pay MCP se lanza; Google presenta Veo 3 en todo el mundo

¡Bienvenido al programa 【Diario de IA】! Aquí está su guía para explorar el mundo de la inteligencia artificial cada día. Cada día, le presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores para ayudarle a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA. Productos de IA recientes, haga clic para obtener más información: https://top.aibase.com/1. Yuanbao de Tencent mejora nuevamente: Una sola frase para buscar, imágenes y videos aparecerán inmediatamente, permitiendo un acceso más intuitivo a la información. La función actualizada de Yuanbao de Tencent hace que el acceso a la información sea más intuitivo y eficiente. Solo necesita hacer una pregunta con una frase para obtener información textual y visual.

Jul 4, 2025

TikTok abre Trae-Agent para impulsar una nueva experiencia de desarrollo inteligente

Jul 4, 2025

Pago de WeChat MCP en línea: la perfecta combinación de IA y pagos, abriendo una nueva era comercial

Jul 4, 2025

Figma planea cotizarse en la Bolsa de Nueva York con una valoración de aproximadamente 20 mil millones de dólares, el futuro de la inteligencia artificial en el diseño es prometedor

Jul 4, 2025

Google presenta globalmente su nuevo modelo de generación de videos Veo 3

Google anunció oficialmente la puesta en marcha a nivel mundial de su último modelo de generación de videos Veo3. Esta noticia ha generado mucha expectativa entre los usuarios, y ahora Veo3 está disponible para los usuarios de Gemini en más de 159 países, ofreciendo una experiencia completamente nueva para crear videos. Las características del modelo de generación de videos Veo3 permiten a los usuarios generar videos de hasta ocho segundos a partir de simples instrucciones de texto. Según la descripción de Google, esta tecnología está diseñada especialmente para usuarios creativos, especialmente para los usuarios de redes sociales que cada vez demandan más contenido en forma de videos cortos.

Jul 4, 2025

Advertencia de Hitachi Energy: las fluctuaciones en la demanda eléctrica de los centros de inteligencia artificial podrían amenazar la estabilidad del suministro eléctrico mundial

Recientemente, el consejero delegado de Hitachi Energy, empresa fabricante líder de transformadores del mundo, Andreas Schierenbeck, señaló durante una entrevista con Financial Times que el aumento repentino de la demanda eléctrica por parte de grandes empresas tecnológicas al entrenar modelos de inteligencia artificial requiere que los gobiernos tomen medidas para limitar estas fluctuaciones y garantizar la estabilidad del suministro eléctrico. Nota: La imagen proviene de una fuente de licencia de Midjourney. Schierenbeck indicó que las fluctuaciones en la demanda eléctrica de los centros de datos de inteligencia artificial son extremadamente intensas,

Jul 4, 2025

Meta presenta un asistente de chat activo que hace que la IA vaya un paso adelante en la conversación

Recientemente, Meta está probando un nuevo tipo de asistente de chat que enviará mensajes activamente a los usuarios, en lugar de solo responder cuando el usuario inicia la conversación. Imagina que estás charlando con un amigo en Facebook Messenger o WhatsApp, y de repente, un asistente de chat de IA llamado "El maestro del magia cinematográfica" te envía un mensaje: ¡Espero que tengas un buen día! Me pregunto si has tenido alguna noticia recientemente.

Jul 4, 2025

Tencent Yuanbao se actualiza: una sola frase de búsqueda, imágenes y videos se presentan inmediatamente, la obtención de información es más intuitiva

El asistente inteligente Yuanbao anunció hoy una importante actualización en su función de búsqueda principal, lanzando una nueva característica llamada "con una sola frase puedes buscar más". Ahora, los usuarios solo necesitan hacer una pregunta sencilla y Yuanbao podrá coincidir inteligentemente y mostrar contenido de imágenes y canales de videos, haciendo que la obtención de información sea más rica e intuitiva que nunca. En el pasado, Yuanbao ya podía manejar fácilmente consultas sobre el clima, cotizaciones de acciones, búsquedas de ubicaciones y otras necesidades cotidianas. Esta actualización llevará la capacidad de búsqueda inteligente de Yuanbao a un nuevo nivel. Ya sea que desees aprender una nueva habilidad o resolver pequeños problemas de la vida diaria, Yuanbao podrá integrar texto

Jul 4, 2025

Cluely duplica sus ingresos anuales en una semana, alcanzando los 7 millones de dólares

La startup emergente Cluely, en pleno auge en Silicon Valley, anunció recientemente que sus ingresos anuales recurrentes (ARR) subieron rápidamente a unos 7 millones de dólares después del lanzamiento de su nuevo producto empresarial. Esta velocidad de crecimiento ha generado entusiasmo en el fundador Roy Lee, quien le dijo a TechCrunch: "Cada persona que tiene una reunión o entrevista está probando este producto." Cluely se dedica a utilizar la inteligencia artificial para analizar conversaciones en línea, proporcionando en tiempo real transcripciones de reuniones, información de fondo y sugerencias de preguntas, toda la información aparece silenciosamente en la pantalla del usuario.

Jul 4, 2025

JD Logistics presenta su camioneta ligera autónoma propia, JD Logistics VAN, con nivel de automatización L4 en carreteras públicas

En la reciente XVII Exposición Internacional de Tecnología y Equipo de Transporte, JD Logistics presentó por primera vez su producto de camioneta ligera autónoma desarrollado internamente: JD Logistics VAN. Esta camioneta ligera autónoma tiene un espacio de carga de 24 metros cúbicos, lo que la convierte en la camioneta ligera autónoma con mayor capacidad de carga en la industria logística actual, y podría reemplazar a los tradicionales camiones de 4.2 metros en环节 como el transporte de mercancías y el traslado entre estaciones. Según la información proporcionada, JD Logistics VAN tiene una autonomía de hasta 400 kilómetros cuando está completamente cargada y cuenta con la capacidad de automatización de nivel L4 en carreteras públicas. Esto significa que puede funcionar de manera autónoma.

Jul 4, 2025

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

DeepMind presenta Crome: mejorar la alineación de modelos de lenguaje grandes con el feedback humano

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Diario de IA: La versión actualizada de Yuanbao de Tencent permite buscar imágenes y videos con una sola frase; WeChat Pay MCP se lanza; Google presenta Veo 3 en todo el mundo

TikTok abre Trae-Agent para impulsar una nueva experiencia de desarrollo inteligente

Pago de WeChat MCP en línea: la perfecta combinación de IA y pagos, abriendo una nueva era comercial

Figma planea cotizarse en la Bolsa de Nueva York con una valoración de aproximadamente 20 mil millones de dólares, el futuro de la inteligencia artificial en el diseño es prometedor

Google presenta globalmente su nuevo modelo de generación de videos Veo 3

Advertencia de Hitachi Energy: las fluctuaciones en la demanda eléctrica de los centros de inteligencia artificial podrían amenazar la estabilidad del suministro eléctrico mundial

Meta presenta un asistente de chat activo que hace que la IA vaya un paso adelante en la conversación

Tencent Yuanbao se actualiza: una sola frase de búsqueda, imágenes y videos se presentan inmediatamente, la obtención de información es más intuitiva

Cluely duplica sus ingresos anuales en una semana, alcanzando los 7 millones de dólares

JD Logistics presenta su camioneta ligera autónoma propia, JD Logistics VAN, con nivel de automatización L4 en carreteras públicas