Una nueva evaluación independiente muestra que los últimos modelos Llama4 de Meta, Maverick y Scout, obtuvieron excelentes resultados en pruebas estándar, pero un rendimiento deficiente en tareas complejas de contexto largo. Según el "índice de inteligencia" del análisis de inteligencia artificial, Maverick obtuvo una puntuación de 49, superando a Claude3.7Sonnet (puntuación no especificada), pero quedando por detrás de Deepseek V30324 (53 puntos); Scout obtuvo 36 puntos, comparable a GPT-4o-mini, y superando a Claude3.5Sonnet y Mistral Small3.1. Ambos modelos mostraron un rendimiento estable en tareas de razonamiento, codificación y matemáticas, sin mostrar debilidades significativas.

QQ20250408-092416.png

La eficiencia de la arquitectura de Maverick es notable, con solo 17 mil millones de parámetros activos (en comparación con los 37 mil millones de Deepseek V3), un 60% del total de parámetros (4020 mil millones frente a 6710 mil millones), y la capacidad de procesar imágenes, no solo texto. En cuanto al precio, Maverick cuesta 0.24 dólares/0.77 dólares por millón de tokens de entrada/salida, mientras que Scout cuesta 0.15 dólares/0.4 dólares, menos que Deepseek V3 e incluso 10 veces más barato que GPT-4o, convirtiéndose en uno de los modelos de IA más asequibles.

Sin embargo, el lanzamiento de Llama4 ha generado controversia. Las pruebas comparativas de LMArena muestran que Maverick ocupó el segundo lugar con la "versión de chat experimental" recomendada por Meta, pero cayó al quinto lugar al activar el "control de estilo", lo que destaca su dependencia de la optimización del formato en lugar de la calidad pura del contenido. Los evaluadores cuestionaron la fiabilidad de los puntos de referencia de Meta, señalando las diferencias significativas con el rendimiento en otras plataformas. Meta admitió haber optimizado la experiencia de evaluación humana, pero negó haber hecho trampa con los datos de entrenamiento.

QQ20250408-092427.png

Las tareas de contexto largo son una clara debilidad de Llama4. Las pruebas de Fiction.live muestran que Maverick tiene una precisión del 28.1% con 128.000 tokens, y Scout aún menos, con un 15.6%, muy por debajo del 90.6% de Gemini2.5Pro. Aunque Meta afirma que Maverick admite una ventana de contexto de 1 millón de tokens y Scout de 10 millones, el rendimiento real está muy lejos de alcanzar esas cifras. Los estudios muestran que las ventanas de contexto extremadamente grandes tienen un rendimiento limitado, siendo más prácticas las de menos de 128K.

Ahmad Al-Dahle, responsable de IA generativa de Meta, respondió que las inconsistencias iniciales se debieron a problemas de implementación, no a defectos del modelo. Negó las acusaciones de hacer trampa en las pruebas y afirmó que se están realizando optimizaciones de implementación, y se espera que se estabilice en unos días.