Recientemente, el equipo de aprendizaje automático de Vectara realizó pruebas exhaustivas de alucinaciones en dos modelos de la serie DeepSeek. Los resultados mostraron que DeepSeek-R1 tiene una tasa de alucinación del 14.3%, significativamente más alta que la de su predecesor, DeepSeek-V3, con un 3.9%. Esto indica que, al mejorar el razonamiento, DeepSeek-R1 genera más contenido inexacto o inconsistente con la información original. Este resultado ha generado un amplio debate sobre la tasa de alucinaciones en los modelos de lenguaje grandes (LLM) con razonamiento mejorado.

Nota de la imagen: Imagen generada por IA, proveedor de servicios de licencias de imágenes Midjourney
El equipo de investigación señala que los modelos con razonamiento mejorado pueden ser más propensos a las alucinaciones que los modelos de lenguaje grandes comunes. Este fenómeno es particularmente evidente en la comparación de la serie DeepSeek con otros modelos con razonamiento mejorado. Tomando como ejemplo la serie GPT, la diferencia en la tasa de alucinaciones entre GPT-o1 (con razonamiento mejorado) y GPT-4o (versión estándar) también corrobora esta hipótesis.

Para evaluar el rendimiento de estos dos modelos, los investigadores utilizaron el modelo HHEM de Vectara y el método FACTS de Google. HHEM, como herramienta específica de detección de alucinaciones, mostró una alta sensibilidad al detectar el aumento de la tasa de alucinaciones en DeepSeek-R1, mientras que el modelo FACTS tuvo un rendimiento relativamente inferior. Esto sugiere que HHEM podría ser más efectivo que los LLM como estándar.


Cabe destacar que DeepSeek-R1, a pesar de su excelente rendimiento en razonamiento, presenta una mayor tasa de alucinaciones. Esto podría estar relacionado con la complejidad lógica que deben procesar los modelos con razonamiento mejorado. A medida que aumenta la complejidad del razonamiento del modelo, la precisión del contenido generado puede verse afectada. El equipo de investigación también destaca que si DeepSeek se enfocara más en reducir las alucinaciones durante la fase de entrenamiento, podría lograr un buen equilibrio entre capacidad de razonamiento y precisión.

Si bien los modelos con razonamiento mejorado suelen presentar una mayor tasa de alucinaciones, esto no significa que carezcan de ventajas en otros aspectos. En el caso de la serie DeepSeek, es necesario abordar el problema de las alucinaciones en futuras investigaciones y optimizaciones para mejorar el rendimiento general del modelo.
Referencias: https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3





