In den letzten Tagen hat Google die Einführung von LMEval bekannt gegeben, einem Open-Source-Framework, das darauf abzielt, die Bewertung von großen Sprachmodellen und multimodalen Modellen zu vereinfachen und zu standardisieren. Dieses Tool bietet Forschern und Entwicklern einen einheitlichen Bewertungsprozess, mit dem sie leicht AI-Modelle verschiedener Unternehmen vergleichen können, wie zum Beispiel GPT-4o, Claude3.7Sonnet, Gemini2.0Flash und Llama-3.1-405B.

image.png

Bisher war der Vergleich neuer AI-Modelle oft kompliziert, da verschiedene Anbieter eigene APIs, Datentypen und Benchmark-Einstellungen nutzten, was zu ineffizienten und schwer umsetzbaren Evaluierungen führte. Daher entstand LMEval, das durch Standardisierung des Bewertungsprozesses ermöglicht, dass einmal definierte Benchmarks auf beliebige unterstützte Modelle angewendet werden können, fast ohne zusätzliche Anstrengung.

Nicht nur für Textbewertungen ist LMEval verfügbar, sondern auch für Bild- und Codebewertungen. Google erklärt, dass Nutzer neue Eingabeformate einfach hinzufügen können. Das System kann verschiedene Bewertungstypen verarbeiten, darunter Ja/Nein-Fragen, Multiple-Choice-Fragen und Freitextgenerierung. Außerdem erkennt LMEval „Abweichungsstrategien“, bei denen Modelle absichtlich vage Antworten geben, um potenziell problematische oder risikobehaftete Inhalte zu vermeiden.

Dieses System läuft auf dem LiteLLM-Framework und glättet Unterschiede in den APIs verschiedener Anbieter wie Google, OpenAI, Anthropic, Ollama und Hugging Face. Damit können dieselben Tests auf mehreren Plattformen ausgeführt werden, ohne dass der Code neu geschrieben werden muss. Ein herausragendes Merkmal ist die inkrementelle Bewertung, bei der Nutzer nicht jedes Mal die gesamte Testsuite ausführen müssen, sondern nur die hinzugefügten Tests, was sowohl Zeit als auch Rechenkosten spart. Darüber hinaus verwendet LMEval einen Multithreading-Engine, um die Berechnungsgeschwindigkeit zu beschleunigen und mehrere Berechnungen gleichzeitig auszuführen.

Google bietet außerdem eine Visualisierungstool namens LMEvalboard an, mit dem Nutzer ihre Testergebnisse analysieren können. Durch die Erstellung von Radardiagrammen können Nutzer die Leistungen der Modelle in verschiedenen Kategorien sehen und einzelne Modelle genauer untersuchen. Das Tool ermöglicht auch den Vergleich verschiedener Modelle, einschließlich nebeneinander angeordneter grafischer Darstellungen zu bestimmten Fragen, was es Nutzern erleichtert, Unterschiede zwischen den Modellen zu erkennen.

Der Quellcode und Beispieldatenbücher für LMEval sind bereits auf GitHub verfügbar, um Entwickler weltweit zu unterstützen und weiterzuentwickeln.

Projekt: https://github.com/google/lmeval

Hier sind die wichtigsten Punkte:

🌟 LMEval ist ein Open-Source-Framework von Google, das den Vergleich unterschiedlicher große AI-Modelle vereinheitlicht.  

🖼️ Unterstützt multimodale Bewertungen von Text, Bildern und Code und ermöglicht es einfach neue Eingabeformate hinzuzufügen.  

📊 Bietet das LMEvalboard-Visualisierungstool an, das Nutzern hilft, Modelldarstellungen und -vergleiche zu analysieren.