Google AI ha lanzado recientemente una herramienta de evaluación experimental llamada Stax, diseñada para ayudar a los desarrolladores a probar y analizar modelos de lenguaje grandes (LLMs) de manera más eficiente. A diferencia del software tradicional, los LLMs son sistemas probabilísticos que pueden generar respuestas diferentes ante la misma consulta, lo que complica la consistencia y la reproducibilidad en la evaluación. Por lo tanto, Stax ofrece a los desarrolladores un método estructurado para evaluar y comparar diferentes LLMs según criterios personalizados.

image.png

Al evaluar modelos, normalmente se utilizan tablas de clasificación y pruebas estándar, las cuales son útiles para seguir los avances generales del modelo, pero no reflejan las necesidades específicas de un campo determinado. Por ejemplo, un modelo que tenga un buen desempeño en tareas de razonamiento en el ámbito abierto podría no ser capaz de manejar resúmenes de cumplimiento, análisis de textos legales o respuestas a preguntas específicas de una empresa. Stax resuelve este problema al permitir a los desarrolladores definir procesos de evaluación relacionados con sus casos de uso.

Una función importante de Stax es la "comparación rápida". Esta función permite a los desarrolladores probar múltiples consultas en diferentes modelos al mismo tiempo, lo que facilita entender mejor el impacto del diseño de consultas o la elección del modelo en los resultados, reduciendo así el tiempo de prueba y error. Además, Stax ofrece la función "Proyecto y conjunto de datos", cuando sea necesario realizar pruebas a gran escala, los desarrolladores pueden crear conjuntos de prueba estructurados y aplicar estándares de evaluación consistentes en múltiples muestras, lo que no solo apoya la reproducibilidad, sino que también hace más fácil evaluar los modelos en condiciones más realistas.

El concepto central de Stax es el "evaluador automático". Los desarrolladores pueden construir evaluadores personalizados adecuados para sus casos de uso o utilizar evaluadores preconstruidos. Las opciones integradas cubren categorías comunes de evaluación, como fluidez (corrección gramatical y legibilidad), base (consistencia con la información de referencia) y seguridad (garantizar que la salida evite contenido dañino o inapropiado). Esta flexibilidad permite que la evaluación esté alineada con las necesidades reales, en lugar de utilizar métricas generales únicas.

Además, el tablero de análisis de Stax facilita la interpretación de los resultados, ya que los desarrolladores pueden ver tendencias de rendimiento, comparar las salidas de diferentes evaluadores y analizar el desempeño de distintos modelos en el mismo conjunto de datos. En general, Stax proporciona a los desarrolladores una herramienta para pasar de pruebas puntuales a evaluaciones estructuradas, ayudando a los equipos a comprender mejor el desempeño del modelo bajo condiciones específicas en entornos de producción y a supervisar si las salidas cumplen con los estándares requeridos por las aplicaciones reales.

Proyecto: https://stax.withgoogle.com/landing/index.html

Destacado:

🌟 Stax es una herramienta experimental lanzada por Google AI, diseñada para ayudar a los desarrolladores a evaluar modelos de lenguaje grandes según criterios personalizados.

🔍 Con las funciones "Comparación rápida" y "Proyecto y conjunto de datos", los desarrolladores pueden probar y evaluar modelos de manera más eficiente.

📊 Stax admite evaluadores personalizados y preconstruidos, ayudando a los desarrolladores a obtener resultados de evaluación relacionados con sus necesidades reales.