Récemment, Google a annoncé le lancement de LMEval, un cadre open source conçu pour simplifier et standardiser l'évaluation des grands modèles linguistiques et multimodaux. Cet outil offre aux chercheurs et développeurs un processus d'évaluation unifié qui permet de comparer facilement les modèles IA provenant de différentes entreprises, comme GPT-4o, Claude3.7Sonnet, Gemini2.0Flash et Llama-3.1-405B, entre autres.

image.png

Par le passé, la comparaison des nouveaux modèles IA était souvent complexe car chaque fournisseur utilisait ses propres API, formats de données et paramètres de benchmarks, ce qui rendait l'évaluation inefficace et difficile. Par conséquent, LMEval est né. Il standardise le processus d'évaluation, permettant une application rapide de tout benchmark configuré à n'importe quel modèle pris en charge avec peu ou pas de travail supplémentaire.

LMEval ne se limite pas à l'évaluation du texte ; il s'étend également à l'évaluation des images et du code. Selon Google, les utilisateurs peuvent facilement ajouter de nouveaux formats d'entrée. Le système peut gérer différents types d'évaluation, y compris les questions à choix simple, à réponse multiple et la génération de texte libre. De plus, LMEval peut identifier les « stratégies d'esquive », c'est-à-dire que les modèles donnent délibérément des réponses ambiguës pour éviter de générer du contenu problématique ou risqué.

Ce système fonctionne sur le framework LiteLLM, ce qui permet de traiter différemment les API des fournisseurs tels que Google, OpenAI, Anthropic, Ollama et Hugging Face sans avoir à réécrire le code. Une caractéristique notable est l'évaluation incrémentielle : les utilisateurs n'ont pas besoin de relancer tout le jeu de tests à chaque fois, mais seulement les tests supplémentaires, ce qui économise du temps et réduit les coûts de calcul. De plus, LMEval utilise un moteur multithreadé pour accélérer les calculs et peut exécuter plusieurs calculs en parallèle.

Google propose également un outil de visualisation nommé LMEvalboard, qui permet aux utilisateurs d'analyser les résultats des tests. En générant des graphiques radar, les utilisateurs peuvent voir comment les modèles se comportent dans différentes catégories et explorer en détail les performances individuelles des modèles. Cet outil permet aux utilisateurs de comparer les modèles, y compris une vue côte à côte pour certaines questions spécifiques, facilitant ainsi la compréhension des différences entre les modèles.

Le code source et des exemples de carnets interactifs de LMEval sont disponibles publiquement sur GitHub pour être utilisés et étudiés par les développeurs.

Projet : https://github.com/google/lmeval

Points clés :

🌟 LMEval est un cadre open source créé par Google pour évaluer uniformément les grands modèles IA de différentes entreprises.  

🖼️ Prend en charge l'évaluation multimodale du texte, des images et du code, et permet d'ajouter facilement de nouveaux formats d'entrée.  

📊 Fournit un outil de visualisation LMEvalboard pour aider les utilisateurs à analyser et comparer les performances des modèles.