DeepEval: Marco de prueba de evaluación para LLM - Evaluación sin conexión del rendimiento de los modelos grandes de lenguaje

站长之家

Publicado elNoticias de IA · 2 minutos de lectura · Sep 27, 2023

221

DeepEval

DeepEval es un framework para la evaluación y pruebas unitarias de aplicaciones de modelos lingüísticos. Ofrece una variedad de métricas para evaluar el rendimiento de las respuestas generadas por las aplicaciones de modelos lingüísticos en aspectos como la relevancia, la coherencia, la imparcialidad y la ausencia de toxicidad.

El método de evaluación offline de DeepEval es sencillo y fácil de usar, pudiéndose integrar rápidamente en las canalizaciones existentes. Ofrece varias métricas de evaluación integradas y admite métricas de evaluación personalizadas. A través de la interfaz web de DeepEval, los ingenieros pueden ver y analizar fácilmente sus resultados de evaluación.

Modelos grandes de lenguaje Modelos de lenguaje Pruebas de evaluación

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

¿Los modelos de lenguaje grandes también sufren amnesia? Supermemory lanza un parche de memoria infinita para que tu IA nunca olvide.

Al interactuar durante largos períodos con modelos de lenguaje grandes como ChatGPT o Claude, ¿has experimentado escenas embarazosas donde el contenido de la conversación se olvida repentinamente? Esto no es intencional por parte de la IA, sino que está limitado por las restricciones inherentes de los modelos de lenguaje grande en cuanto a su ventana de contexto. Ya sea una capacidad de 8k, 32k o incluso 128k tokens, una vez que se supera ese umbral, el contenido previo de la conversación será truncado y perdido, lo que daña gravemente la experiencia de interacción. Recientemente, una empresa llamada Supermemory ha lanzado una tecnología disruptiva llamada Infin

May 16, 2025

La empresa ElastixAI, fundada por exingenieros de Apple, recauda 16 millones de dólares para centrarse en optimizar la tecnología de inferencia de modelos de lenguaje grande

May 15, 2025

OpenAI lanza HealthBench: un nuevo estándar para evaluar el rendimiento de los modelos de lenguaje grande en el campo médico

May 13, 2025

El conjunto de datos UGMathBench se lanza con datos para evaluar la capacidad de razonamiento matemático de los modelos de lenguaje

Recientemente, la comunidad ModelScope ha anunciado el lanzamiento de un conjunto de datos de evaluación dinámico llamado UGMathBench, diseñado para evaluar integralmente la capacidad de razonamiento matemático de los modelos de lenguaje en una amplia gama de asignaturas de matemáticas de nivel universitario. La aparición de este conjunto de datos llena el vacío actual en la evaluación de la capacidad de razonamiento de los modelos de lenguaje en el ámbito de las matemáticas de nivel universitario, proporcionando a los investigadores una plataforma de prueba más rica y desafiante.

May 10, 2025

Zhipu anuncia bajada de precio en varios de sus modelos de lenguaje, con GLM-4-Plus reduciendo su precio en un 90%

La plataforma BigModel de Zhipu ha ajustado los precios de varios de sus modelos. En particular, el precio del modelo GLM-4-FlashX es de tan solo 10 yuanes por cada 100 millones de tokens. Este modelo, basado en una potente base de preentrenamiento, ofrece una velocidad de inferencia ultrarrápida y capacidades de llamada de funciones comparables a GPT-4, destacando en tareas de extracción de datos, generación, y traducción.

Apr 24, 2025

Hugging Face, plataforma líder de modelos de lenguaje abierto, incursiona en el campo de la robótica con la adquisición de Pollen Robotics

Recientemente, la plataforma de desarrollo de inteligencia artificial Hugging Face anunció oficialmente la adquisición de Pollen Robotics, una startup francesa de robots humanoides, marcando así su incursión estratégica en el sector de la robótica. Si bien los detalles financieros de la transacción aún no se han revelado, ha generado un gran interés. Pollen Robotics, fundada en 2016 por los ingenieros Matthieu Lapeyre y Pierre Rouanet, destaca por su producto principal, Reachy2, un robot humanoide avanzado que ya se utiliza en la Universidad de Cornell...

Apr 16, 2025

Preentrenamiento no equivale a más potente: la investigación revela el fenómeno del sobreentrenamiento catastrófico en los grandes modelos de lenguaje

Apr 14, 2025

Kimi-VL y Kimi-VL-Thinking, modelos de lenguaje visual de código abierto, superan a GPT-4o en varios benchmarks

Los modelos de lenguaje visual de código abierto Kimi-VL y Kimi-VL-Thinking han superado a GPT-4o en varias pruebas de referencia. Estos modelos representan un avance significativo en el campo de la inteligencia artificial, combinando la capacidad de procesamiento del lenguaje natural con la comprensión de imágenes.

Apr 14, 2025

TikTok responde al lanzamiento de la tarjeta de desmentido: combina capacidades de modelos de lenguaje grandes de IA y humanos

Recientemente, el boletín de TikTok publicó un anuncio importante anunciando el lanzamiento oficial de una nueva función de "tarjeta de desmentido" para combatir la información errónea. Esta medida tiene como objetivo identificar y manejar la información errónea de manera más eficiente, y revelar a los usuarios de manera integral el origen, las causas de la propagación y la verdad de la información errónea.

Apr 9, 2025

Los investigadores de IA de Nvidia presentan la tecnología de fusión FFN: aceleración de la inferencia de modelos de lenguaje grandes

Mar 31, 2025

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General