Google AI hat kürzlich ein experimentelles Bewertungstool namens Stax veröffentlicht, das Entwicklern dabei helfen soll, große Sprachmodelle (LLMs) effizienter zu testen und zu analysieren. Im Gegensatz zu traditionellen Softwaretests sind LLMs probabilistische Systeme, die auf dieselbe Eingabe unterschiedliche Antworten geben können, was die Konsistenz und Wiederholbarkeit der Bewertung kompliziert. Daher bietet Stax den Entwicklern eine strukturierte Methode, um verschiedene LLMs anhand von benutzerdefinierten Kriterien zu bewerten und zu vergleichen.

Beim Modellbewertungsprozess werden oft Rankings und allgemeine Benchmark-Tests verwendet, die bei der Verfolgung höherer Modellentwicklungen hilfreich sind, aber nicht die Anforderungen spezifischer Bereiche widerspiegeln. Zum Beispiel könnte ein Modell, das in offenen Bereichs-Reasoning-Aufgaben gut abschneidet, Schwierigkeiten haben, Compliance-Zusammenfassungen, Analyse rechtlicher Texte oder Antwort auf spezifische Unternehmensfragen zu bewältigen. Stax löst dieses Problem, indem es Entwicklern ermöglicht, Bewertungsprozesse zu definieren, die für ihre Anwendung relevant sind.
Eine wichtige Funktion von Stax ist „Schnellvergleich“. Diese Funktion ermöglicht es Entwicklern, verschiedene Modelle mit verschiedenen Prompt-Vorschlägen nebeneinander zu testen, wodurch es einfacher wird, den Einfluss von Prompt-Entwurf oder Modellauswahl auf die Ausgabe zu verstehen und Zeit für Versuch und Irrtum zu sparen. Darüber hinaus bietet Stax auch die Funktion „Projekt und Datensatz“, mit der Entwickler strukturierte Testsets erstellen können, wenn größere Tests erforderlich sind. Sie können dann konsistente Bewertungskriterien auf mehreren Beispielen anwenden, was nicht nur die Wiederholbarkeit unterstützt, sondern auch die Bewertung von Modellen unter realistischeren Bedingungen erleichtert.
Das zentrale Konzept von Stax ist „Automatischer Bewertungsmittel“. Entwickler können benutzerdefinierte Bewertungsmittel für ihre Anwendung erstellen oder vorgefertigte Bewertungsmittel verwenden. Die integrierten Optionen decken häufige Bewertungskategorien ab, wie z. B. Flüssigkeit (grammatikalische Richtigkeit und Lesbarkeit), Grundlagen (Faktenkonsistenz mit Referenzmaterialien) sowie Sicherheit (die Sicherstellung, dass die Ausgabe schädliche oder unangemessene Inhalte vermeidet). Diese Flexibilität ermöglicht es, Bewertungen an tatsächliche Anforderungen anzupassen, anstatt sich auf einen einzigen allgemeinen Indikator zu verlassen.
Zusätzlich kann die Analyse-Übersichtsseite von Stax Ergebnisse einfacher erklären. Entwickler können Leistungstrends betrachten, Ausgaben verschiedener Bewertungsmittel vergleichen und die Leistung unterschiedlicher Modelle auf demselben Datensatz analysieren. Insgesamt bietet Stax den Entwicklern ein Werkzeug, um von vorübergehenden Tests zu einer strukturierten Bewertung überzugehen, das Teams dabei unterstützt, das Verhalten von Modellen unter spezifischen Bedingungen im Produktionsumfeld besser zu verstehen und sicherzustellen, dass die Ausgaben den Anforderungen praktischer Anwendungen entsprechen.
Projekt: https://stax.withgoogle.com/landing/index.html
Zusammenfassung:
🌟 Stax ist ein experimentelles Tool, das von Google AI entwickelt wurde, um Entwicklern zu helfen, große Sprachmodelle anhand benutzerdefinierter Kriterien zu bewerten.
🔍 Mit den Funktionen „Schnellvergleich“ und „Projekt und Datensatz“ können Entwickler Modelle effizienter testen und bewerten.
📊 Stax unterstützt benutzerdefinierte und vorgefertigte Bewertungsmittel, um Entwicklern Bewertungsergebnisse zu liefern, die mit ihren praktischen Anforderungen übereinstimmen.


