Google AI a récemment lancé un outil d'évaluation expérimental appelé Stax, conçu pour aider les développeurs à tester et analyser efficacement les modèles de langage à grande échelle (LLMs). Contrairement au test logiciel traditionnel, les LLMs sont des systèmes probabilistes qui peuvent produire des réponses différentes face à la même requête, ce qui rend l'évaluation cohérente et reproductible complexe. Ainsi, Stax offre aux développeurs une méthode structurée pour évaluer et comparer différents LLMs selon des critères personnalisés.

image.png

Lors de l'évaluation des modèles, on utilise souvent des classements et des benchmarks généraux, qui aident à suivre les progrès globaux des modèles, mais ne reflètent pas les besoins spécifiques d'un domaine. Par exemple, un modèle performant dans les tâches de raisonnement en domaine ouvert peut avoir du mal à gérer des synthèses de conformité, l'analyse de textes juridiques ou la réponse à des questions spécifiques aux entreprises. Stax résout ce problème en permettant aux développeurs de définir des processus d'évaluation liés à leurs cas d'usage.

Une fonction importante de Stax est « Comparaison rapide ». Cette fonction permet aux développeurs de tester plusieurs prompts sur différents modèles côte à côte, facilitant ainsi la compréhension de l'impact de la conception des prompts ou du choix du modèle sur les résultats, et réduisant le temps nécessaire pour les essais et erreurs. De plus, Stax propose une fonctionnalité intitulée « Projets et jeux de données », qui permet aux développeurs de créer des ensembles de tests structurés lorsqu'ils doivent effectuer des tests à grande échelle, appliquant ainsi des critères d'évaluation cohérents sur plusieurs échantillons. Cela favorise non seulement la reproductibilité, mais aussi l'évaluation des modèles dans des conditions plus réalistes.

Le concept central de Stax est l'« Évaluateur automatique ». Les développeurs peuvent construire des évaluateurs personnalisés adaptés à leurs cas d'usage ou utiliser des évaluateurs prédéfinis. Les options intégrées couvrent les catégories d'évaluation courantes, comme la fluidité (exactitude grammaticale et lisibilité), la base (cohérence factuelle par rapport aux matériaux de référence) et la sécurité (assurer que les sorties évitent le contenu nuisible ou inapproprié). Cette flexibilité permet aux évaluations d'être alignées sur les besoins réels, plutôt que d'utiliser un seul indicateur général.

De plus, le tableau de bord d'analyse de Stax facilite l'interprétation des résultats. Les développeurs peuvent consulter les tendances de performance, comparer les sorties de différents évaluateurs et analyser les performances des différents modèles sur le même jeu de données. En résumé, Stax fournit aux développeurs un outil pour passer d'essais ponctuels à une évaluation structurée, aidant les équipes à mieux comprendre les performances des modèles dans des conditions spécifiques en environnement de production et à surveiller si les sorties respectent les normes nécessaires à l'application pratique.

Projet : https://stax.withgoogle.com/landing/index.html

Points clés :

🌟 Stax est un outil expérimental lancé par Google AI, conçu pour aider les développeurs à évaluer les grands modèles de langage selon des critères personnalisés.

🔍 Grâce aux fonctions « Comparaison rapide » et « Projets et jeux de données », les développeurs peuvent tester et évaluer plus efficacement les modèles.

📊 Stax prend en charge des évaluateurs personnalisés et prédéfinis, aidant les développeurs à obtenir des résultats d'évaluation pertinents pour leurs besoins.