Un estudio reciente, liderado por el Instituto de Ciencias Complejas de Austria (CSH), revela que los grandes modelos lingüísticos (LLM), a pesar de su excelente rendimiento en diversas tareas, presentan deficiencias al enfrentarse a preguntas de historia complejas. El equipo de investigación evaluó tres modelos punteros: GPT-4 de OpenAI, Llama de Meta y Gemini de Google, obteniendo resultados decepcionantes.
Nota de la imagen: Imagen generada por IA, con licencia de Midjourney.
Para evaluar el conocimiento histórico de estos modelos, los investigadores desarrollaron una herramienta de evaluación llamada "Hist-LLM". Esta herramienta se basa en la base de datos histórica global Seshat y busca verificar la precisión de las respuestas de la IA a preguntas históricas. Los resultados del estudio, publicados en la reconocida conferencia de inteligencia artificial NeurIPS, muestran que el modelo con mejor rendimiento, GPT-4Turbo, solo alcanzó una precisión del 46%. Este resultado indica que su desempeño es apenas superior a una respuesta aleatoria.
Maria del Rio-Chanona, profesora asociada de informática en el University College de Londres, afirma: "A pesar de lo impresionantes que son los grandes modelos lingüísticos, su comprensión profunda del conocimiento histórico avanzado sigue siendo insuficiente. Se desempeñan bien con hechos simples, pero son incapaces de abordar preguntas históricas más complejas". Por ejemplo, al preguntar sobre la existencia de armaduras de escamas en un período específico del antiguo Egipto, GPT-4Turbo respondió erróneamente que "sí existían", cuando en realidad esta tecnología apareció 1500 años después. Además, cuando se preguntó si el antiguo Egipto tenía un ejército profesional permanente, GPT-4 también respondió incorrectamente que "sí", cuando la respuesta correcta es que no.
El estudio también revela que los modelos presentan un peor rendimiento al abordar preguntas sobre ciertas regiones (como el África subsahariana), lo que sugiere posibles sesgos en sus datos de entrenamiento. Peter Turchin, director de la investigación, señala que estos resultados reflejan que, en algunos ámbitos, los LLM aún no pueden sustituir a los humanos.
Puntos clave:
- 📉 GPT-4Turbo obtuvo una baja precisión del 46% en un examen de historia avanzada.
- 📚 El estudio muestra que los grandes modelos lingüísticos aún presentan deficiencias en la comprensión de conocimientos históricos complejos.
- 🌍 El equipo de investigación espera mejorar la herramienta de evaluación para aumentar el potencial de aplicación de los modelos en la investigación histórica.