Google AI präsentiert Stax: Hilft Entwicklern, große Sprachmodelle nach benutzerdefinierten Kriterien zu bewerten

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 5 Minuten Lesezeit · Sep 3, 2025

Google AI hat kürzlich ein experimentelles Bewertungstool namens Stax veröffentlicht, das Entwicklern dabei helfen soll, große Sprachmodelle (LLMs) effizienter zu testen und zu analysieren. Im Gegensatz zu traditionellen Softwaretests sind LLMs probabilistische Systeme, die auf dieselbe Eingabe unterschiedliche Antworten geben können, was die Konsistenz und Wiederholbarkeit der Bewertung kompliziert. Daher bietet Stax den Entwicklern eine strukturierte Methode, um verschiedene LLMs anhand von benutzerdefinierten Kriterien zu bewerten und zu vergleichen.

Beim Modellbewertungsprozess werden oft Rankings und allgemeine Benchmark-Tests verwendet, die bei der Verfolgung höherer Modellentwicklungen hilfreich sind, aber nicht die Anforderungen spezifischer Bereiche widerspiegeln. Zum Beispiel könnte ein Modell, das in offenen Bereichs-Reasoning-Aufgaben gut abschneidet, Schwierigkeiten haben, Compliance-Zusammenfassungen, Analyse rechtlicher Texte oder Antwort auf spezifische Unternehmensfragen zu bewältigen. Stax löst dieses Problem, indem es Entwicklern ermöglicht, Bewertungsprozesse zu definieren, die für ihre Anwendung relevant sind.

Eine wichtige Funktion von Stax ist „Schnellvergleich“. Diese Funktion ermöglicht es Entwicklern, verschiedene Modelle mit verschiedenen Prompt-Vorschlägen nebeneinander zu testen, wodurch es einfacher wird, den Einfluss von Prompt-Entwurf oder Modellauswahl auf die Ausgabe zu verstehen und Zeit für Versuch und Irrtum zu sparen. Darüber hinaus bietet Stax auch die Funktion „Projekt und Datensatz“, mit der Entwickler strukturierte Testsets erstellen können, wenn größere Tests erforderlich sind. Sie können dann konsistente Bewertungskriterien auf mehreren Beispielen anwenden, was nicht nur die Wiederholbarkeit unterstützt, sondern auch die Bewertung von Modellen unter realistischeren Bedingungen erleichtert.

Das zentrale Konzept von Stax ist „Automatischer Bewertungsmittel“. Entwickler können benutzerdefinierte Bewertungsmittel für ihre Anwendung erstellen oder vorgefertigte Bewertungsmittel verwenden. Die integrierten Optionen decken häufige Bewertungskategorien ab, wie z. B. Flüssigkeit (grammatikalische Richtigkeit und Lesbarkeit), Grundlagen (Faktenkonsistenz mit Referenzmaterialien) sowie Sicherheit (die Sicherstellung, dass die Ausgabe schädliche oder unangemessene Inhalte vermeidet). Diese Flexibilität ermöglicht es, Bewertungen an tatsächliche Anforderungen anzupassen, anstatt sich auf einen einzigen allgemeinen Indikator zu verlassen.

Zusätzlich kann die Analyse-Übersichtsseite von Stax Ergebnisse einfacher erklären. Entwickler können Leistungstrends betrachten, Ausgaben verschiedener Bewertungsmittel vergleichen und die Leistung unterschiedlicher Modelle auf demselben Datensatz analysieren. Insgesamt bietet Stax den Entwicklern ein Werkzeug, um von vorübergehenden Tests zu einer strukturierten Bewertung überzugehen, das Teams dabei unterstützt, das Verhalten von Modellen unter spezifischen Bedingungen im Produktionsumfeld besser zu verstehen und sicherzustellen, dass die Ausgaben den Anforderungen praktischer Anwendungen entsprechen.

Projekt: https://stax.withgoogle.com/landing/index.html

Zusammenfassung:
🌟 Stax ist ein experimentelles Tool, das von Google AI entwickelt wurde, um Entwicklern zu helfen, große Sprachmodelle anhand benutzerdefinierter Kriterien zu bewerten.
🔍 Mit den Funktionen „Schnellvergleich“ und „Projekt und Datensatz“ können Entwickler Modelle effizienter testen und bewerten.
📊 Stax unterstützt benutzerdefinierte und vorgefertigte Bewertungsmittel, um Entwicklern Bewertungsergebnisse zu liefern, die mit ihren praktischen Anforderungen übereinstimmen.

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Die schnelle Entwicklung der KI-Technologie führt zu Veränderungen in der Gaming-Branche. Generative KI bietet neue Chancen und Herausforderungen, weshalb Unternehmen wie Microsoft und Amazon ihre Ressourcen auf KI-Anwendungen umstecken. Die Reaktionen von Spielentwicklern sind unterschiedlich, und die Zukunft der Branche ist ungewiss.

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Das Sprachteam von Douyin stellt eine vollautomatische AI-Mehrpersonen-Hörspiel-Produktionsmethode vor, die Romane automatisch in Mehrpersonen-Sprecherspiele umwandeln kann. Die Genauigkeit der Rollenerkennung erreicht 98 % und ist mit dem Niveau professioneller Hörspiele vergleichbar, wodurch die Effizienz der Produktion von AI-Hörinhalten erheblich gesteigert wird.

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

Qualcomm hat zwei Cloud-AI-Inferring-Chips, AI200 und AI250, vorgestellt und plant deren kommerzielle Nutzung im Jahr 2026 bzw. 2027. Dies markiert den Übergang von Endgeräte-Chips zu einer vollständigen AI-Infrastruktur. Die Nachricht führte zu einem Anstieg des Aktienkurses um mehr als 20% an einem Tag und ist der größte Anstieg seit 2019. Im Gegensatz zur allseitigen Strategie von Nvidia konzentriert sich Qualcomm auf den Markt für große Modell-Inferring und betont die Vorteile der Energieeffizienz und Kosten.

Magic Leap kündigt eine Neuzusammenarbeit mit Google an, um Prototypen für nächste Generation AR-Brillen gemeinsam zu entwickeln

Am 29. Oktober kündigten Magic Leap und Google auf der Riyadh Future Investment Initiative Konferenz eine Neuzusammenarbeit an, um gemeinsam Prototypen für AR-Brillen zu entwickeln und die Entwicklung der Augmented Reality Technologie voranzutreiben. Ross Rosenburg, Leiter von Magic Leap, erklärte, dass das Unternehmen sich von einem Pionier der AR zur Partnerorganisation im Ökosystem weiterentwickelt und seine Vision in einer neuen Phase durch Innovationen in Optik und Bildschirmtechnik verwirklichen wird.

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Bei der GTC-Messe 2025 stellte NVIDIA das Designkonzept 'Omniverse DSX Blueprint' für gigawattgroße AI-Rechenzentren vor und bezeichnete es als 'AI-Fabrik'. Dieses Konzept basiert auf dem Omniverse-Framework und unterstützt verschiedene Größen von 100 Millionen bis 1 Milliarde Watt. Es soll die effiziente Ausbildung und Ausführung großer KI-Modelle ermöglichen und den wachsenden Anforderungen an KI-Berechnungen gerecht werden. Es handelt sich um einen wichtigen Fortschritt in der Infrastruktur für künstliche Intelligenz.

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Das Doubao-Stimme-Team hat eine "automatisierte Produktion für AI-Mehrpersonen-Audio-Serien" vorgestellt, die die gesamte Produktionskette vom Roman-Text bis zum fertigen Hörspiel vollständig automatisiert. Keine Stimmenaufnahme, Schnitt oder menschliche Intervention erforderlich, was zu erheblichen Kosteneinsparungen und Effizienzsteigerungen führt. Das Ergebnis ist nahe an professionelles Niveau, wobei die Präzision der Rollenerkennung 98 % erreicht.

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

Ehemaliger Leiter der AI-Produkte bei ByteDance, Liu Liaoqian, gründete das Unternehmen 'Extremes Kontext' und konzentriert sich auf die Entwicklung eines Marketing-Multimodal-Agents. Dank seiner reichen Erfahrung im Bereich AIGC schloss er schnell eine Finanzierungsrunde von mehreren Millionen Dollar ab. Liu Liaoqian arbeitete zuvor bei Tencent und ByteDance und beschäftigte sich seit 2019 mit AIGC-Technologien, was Aufmerksamkeit in der Branche erregte.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Google AI präsentiert Stax: Hilft Entwicklern, große Sprachmodelle nach benutzerdefinierten Kriterien zu bewerten

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

HYPERCLOUD stellt das erste interaktive AI-Podcast in China vor, bei dem Benutzer jederzeit Fragen stellen können

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

Magic Leap kündigt eine Neuzusammenarbeit mit Google an, um Prototypen für nächste Generation AR-Brillen gemeinsam zu entwickeln

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Empfohlene verwandte KI-Nachrichten

HYPERCLOUD stellt das erste interaktive AI-Podcast in China vor, bei dem Benutzer jederzeit Fragen stellen können

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

AI-Tageszeitung: Douyin veröffentlicht ein vollautomatisches System für Mehrpersonen-Sprechersysteme; Adobe Firefly Image 5 erhebliche Verbesserungen; Soul- Sprachmodell SoulX-Podcast wird vorgestellt

Qualcomm dringt in den Datenbank-Markt ein! Einführung der AI200/AI250-Chips mit Ziel Nvidia, Aktienkurs steigt um 20% an einem Tag

Magic Leap kündigt eine Neuzusammenarbeit mit Google an, um Prototypen für nächste Generation AR-Brillen gemeinsam zu entwickeln

NVIDIA präsentiert eine revolutionäre AI-Rechenzentrum-Design, um leistungsstarke Berechnungen zu unterstützen

Die AI-Audio-Serie-Revolution bricht aus! Doubao präsentiert ein automatisches Mehrpersonen-Stimmen-System mit einer Erkennungspräzision von 98 %, die professionellen Hörspielen in nichts nachsteht

Ehemaliger Leiter der AI-Produkte bei ByteDance Jiansheng Liu gründet Unternehmen und stellt einen Marketing-Multimodal-Agent vor

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse