Recientemente, el modelo de lenguaje grande de código abierto Llama-4-Maverick, lanzado por Meta, cayó del segundo al puesto 32 en la clasificación de LMArena. Esta drástica fluctuación ha generado amplias dudas entre los desarrolladores, quienes sospechan que Meta podría haber manipulado la clasificación presentando una versión especial.

El problema comenzó el 6 de abril, cuando Meta lanzó su último modelo de lenguaje grande, Llama4, que incluye tres versiones: Scout, Maverick y Behemoth. Inicialmente, Llama-4-Maverick mostró un rendimiento excepcional, ocupando el segundo lugar en la clasificación de LMArena, solo superado por Gemini2.5Pro.

Sin embargo, a medida que se fueron conociendo las opiniones de los desarrolladores sobre la versión de código abierto de Llama4, la reputación del modelo se desplomó rápidamente. Algunos desarrolladores descubrieron diferencias significativas entre la versión presentada por Meta a LMArena y la versión de código abierto que se publicó, lo que llevó a sospechar de una posible manipulación de la clasificación.

Modelo matemático LLM Alpaca

Nota de la imagen: Imagen generada por IA, provista por Midjourney.

Según Chatbot Arena, la versión inicial presentada por Meta, Llama-4-Maverick-03-26-Experimental, era una versión experimental optimizada que logró el segundo puesto. La versión de código abierto corregida, Llama-4-Maverick-17B-128E-Instruct, con 17 mil millones de parámetros activos y 128 expertos MoE, solo ocupa el puesto 32, muy por detrás de modelos mejor clasificados como Gemini2.5Pro y GPT4o, incluso inferior al Llama-3.3-Nemotron-Super-49B-v1, basado en una generación anterior del modelo.

En una reciente presentación, Meta explicó el rendimiento inferior a lo esperado de Llama-4-Maverick-03-26-Experimental diciendo que el modelo estaba "especialmente optimizado para conversaciones", lo que explica su buen desempeño en LM Arena. Esta optimización, aunque le dio una alta puntuación en la clasificación, dificulta a los desarrolladores predecir con precisión el rendimiento real del modelo en diferentes contextos.

Un portavoz de Meta declaró a TechCrunch que la compañía seguirá explorando diferentes versiones personalizadas y espera que los desarrolladores ajusten y mejoren Llama4 según sus necesidades. Meta busca fomentar la creatividad de los desarrolladores y valora sus comentarios.