Recientemente, Google anunció el lanzamiento de LMEval, un marco de código abierto diseñado para simplificar y estandarizar la evaluación de grandes modelos lingüísticos y multimodales. Esta herramienta proporciona a investigadores y desarrolladores un proceso de evaluación unificado que facilita la comparación de modelos de inteligencia artificial de diferentes empresas, como GPT-4o, Claude3.7Sonnet, Gemini2.0Flash y Llama-3.1-405B, entre otros.
Anteriormente, comparar nuevos modelos de IA solía ser complejo debido a que cada proveedor utilizaba sus propias APIs, formatos de datos y configuraciones de benchmarks, lo que reducía la eficiencia de la evaluación y dificultaba su realización. Por eso, LMEval nació: mediante la estandarización del proceso de evaluación, una vez establecido el benchmark, se puede aplicar fácilmente a cualquier modelo compatible con muy poco esfuerzo adicional.
LMEval no solo soporta la evaluación de texto, sino que también se ha extendido a la evaluación de imágenes y código. Según Google, los usuarios pueden agregar fácilmente nuevos formatos de entrada. El sistema puede manejar varios tipos de evaluación, como preguntas de verdadero/falso, preguntas de opción múltiple y generación de texto libre. Además, LMEval puede identificar las "estrategias de evasión", es decir, cuando los modelos deliberadamente dan respuestas ambiguas para evitar generar contenido problemático o de riesgo.
Este sistema opera sobre el marco LiteLLM, permitiendo manejar sin problemas las diferencias en las APIs de distintos proveedores, como Google, OpenAI, Anthropic, Ollama y Hugging Face. Esto significa que las mismas pruebas pueden ejecutarse en múltiples plataformas sin necesidad de reescribir el código. Una característica destacada es la evaluación incremental: los usuarios no tienen que volver a ejecutar todo el conjunto de pruebas cada vez, sino que solo deben realizar las nuevas pruebas, lo que no solo ahorra tiempo, sino que también reduce los costos computacionales. Además, LMEval utiliza un motor multithreaded para acelerar los cálculos y puede ejecutar varias operaciones en paralelo.
Google también ofrece una herramienta visual llamada LMEvalboard, que los usuarios pueden utilizar para analizar los resultados de las pruebas. A través de gráficos de radar, los usuarios pueden ver el rendimiento de los modelos en diferentes categorías y profundizar en el análisis individual de cada modelo. Esta herramienta permite comparar modelos, incluso con visualizaciones lado a lado para ciertos problemas, facilitando a los usuarios comprender las diferencias entre diversos modelos.
El código fuente y cuadernillos de ejemplo de LMEval ya están disponibles públicamente en GitHub para su uso y estudio por parte de los desarrolladores.
Proyecto: https://github.com/google/lmeval
Resaltado:
🌟 LMEval es un marco de código abierto presentado por Google para evaluar uniformemente modelos grandes de IA de diferentes compañías.
🖼️ Soporta la evaluación multimodal de texto, imágenes y código, y es fácil agregar nuevos formatos de entrada.
📊 Ofrece la herramienta visual LMEvalboard, que ayuda a los usuarios a analizar y comparar el rendimiento de los modelos.