Este estudio presenta una investigación comparativa de modelos de inteligencia artificial. Se descubrió que GPT-4, respaldado por Microsoft y OpenAI, mostró el mejor rendimiento en matemáticas. Llama 2 de Meta se ubicó en una posición intermedia, mientras que Claude 2 de Anthropic demostró la mejor comprensión de sus propias limitaciones. Cohere AI, por otro lado, recibió la calificación más alta en cuanto a alucinaciones y respuestas erróneas expresadas con excesiva confianza.
Los investigadores también evaluaron si estos modelos de IA utilizaban advertencias al responder preguntas para evitar riesgos. Se observó un aumento relativo en el uso de advertencias por parte de GPT-4, mientras que el modelo de IA de Cohere no utilizó ninguna advertencia en ninguna de sus respuestas.
Esta investigación tiene una importancia significativa para comprender el rendimiento de los modelos de inteligencia artificial y el fenómeno de las alucinaciones.





