Con el rápido desarrollo de la tecnología de inteligencia artificial, varias empresas de inicio en el sector de IA continúan afirmando que sus productos cambiarán la manera en que se realizan las tareas y se adquiere conocimiento. Sin embargo, un estudio reciente publicado en The Royal Society ha revelado problemas graves en los nuevos modelos de IA al resumir textos, lo cual es preocupante. Los resultados muestran que los nuevos chatbots de IA tienen un 73% de probabilidad de omitir información crucial al proporcionar datos.

Robot de IA Inteligencia Artificial (3) Análisis de Datos

Fuente de la imagen: La imagen fue generada por IA, con el servicio de autorización de Midjourney.

Este estudio analizó diez modelos de lenguaje ampliamente utilizados (LLM) y examinó cerca de 5000 resúmenes de investigaciones científicas. Los chatbots incluidos en el análisis fueron ChatGPT-4o, ChatGPT-4.5, DeepSeek y LLaMA3.370B. Los resultados indicaron que incluso bajo condiciones específicas, los errores de omisión de detalles clave por parte de los sistemas de IA son cinco veces más frecuentes que los cometidos por los resúmenes humanos de artículos científicos.

Los investigadores señalaron: "Cuando los LLM resumen textos científicos, pueden omitir detalles cruciales que limitan el alcance de las conclusiones de la investigación, lo que resulta en una generalización excesiva de los resultados originales". Lo que es más preocupante es que, a medida que los chatbots se actualizan constantemente, su tasa de error no para de aumentar, lo que contradice las promesas hechas por los líderes del sector de IA. Por ejemplo, entre 2023 y 2025, la tasa de uso de ChatGPT entre los adolescentes estadounidenses creció del 13% al 26%. En el estudio, la versión antigua de ChatGPT-4Turbo tenía 2.6 veces más probabilidades de omitir detalles clave que la versión original, mientras que la nueva versión ChatGPT-4o mostró una probabilidad de 9 veces mayor. De forma similar, Meta's LLaMA3.370B tiene 36.4 veces más posibilidades de generalizar de forma excesiva en comparación con las versiones anteriores.

Resumir grandes cantidades de datos en unas pocas frases claras es una tarea compleja. Aunque los seres humanos pueden extraer lecciones generales a partir de experiencias específicas de manera intuitiva, esto resulta extremadamente difícil de programar para los bots de conversación. Los investigadores destacaron que en campos como la medicina clínica, los detalles son cruciales, y hasta la más mínima omisión podría tener consecuencias graves. Por lo tanto, aplicar ampliamente los LLM en diversas industrias, especialmente en sectores como la medicina y la ingeniería, implica un gran riesgo.

A pesar de esto, el estudio también menciona que las sugerencias dadas a los LLM tienen un impacto significativo en los resultados de sus respuestas, aunque aún se desconoce si afectará su capacidad para resumir artículos científicos, lo que plantea una dirección para futuros estudios. En general, a menos que los desarrolladores de IA puedan resolver efectivamente estos problemas en los nuevos LLM, las personas probablemente tendrán que seguir confiando en contenido redactado por humanos para resumir informes científicos de manera precisa.

Resaltar lo importante:

🧠 Se ha descubierto que los nuevos chatbots de IA tienen una tasa de omisión de detalles clave del 73% cuando resumen información.  

📈 La tasa de errores de los nuevos chatbots está aumentando, especialmente en un contexto donde el uso entre los adolescentes está creciendo rápidamente.  

🔍 Las sugerencias proporcionadas a los LLM influyen en sus respuestas, pero aún se necesita investigar cómo afecta esto a la resumición de artículos científicos.