Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Al hardware

lista todos los productos de hardware AI.

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas

ByteDance lanza Multi-SWE-bench de código abierto para impulsar la mejora inteligente del código de modelos grandes

AIbase基地

Publicado elNoticias de IA · 6 minutos de lectura · Apr 10, 2025

Recientemente, el equipo de modelos de lenguaje grande Doubao de ByteDance anunció la publicación de código abierto de Multi-SWE-bench, el primer conjunto de datos de referencia para la reparación de código multilingüe de la industria, lo que supone un nuevo avance en la evaluación y mejora de la capacidad de los grandes modelos para "corregir errores automáticamente".

En el contexto del rápido desarrollo de la tecnología de grandes modelos, las tareas de generación de código se han convertido en un área clave para probar la inteligencia de los modelos. Los conjuntos de datos de referencia para la reparación de código, como SWE-bench, aunque pueden medir la inteligencia de programación de los modelos, presentan limitaciones significativas. Se centran únicamente en el lenguaje Python, lo que impide evaluar la capacidad de generalización entre lenguajes del modelo; además, la dificultad de las tareas es limitada, lo que dificulta la cobertura de escenarios de desarrollo complejos y restringe el desarrollo de la inteligencia de código de los grandes modelos.

Puntuaciones de evaluación de la capacidad de código de diferentes modelos

Multi-SWE-bench surge para solucionar estas limitaciones, superando significativamente a SWE-bench. Por primera vez, abarca 7 lenguajes de programación principales: Java, TypeScript, C, C++, Go, Rust y JavaScript, construyendo 1632 tareas de reparación procedentes de repositorios de código abierto reales. Estas tareas han sido rigurosamente seleccionadas y verificadas manualmente para garantizar su fiabilidad. Además, Multi-SWE-bench incorpora un mecanismo de clasificación de dificultad, dividiendo las tareas en tres niveles: fácil, medio y difícil, lo que permite una evaluación más completa del rendimiento del modelo en diferentes niveles de capacidad.

Los experimentos basados en este conjunto de datos muestran que los modelos de lenguaje grande actuales presentan un rendimiento aceptable en la reparación de código Python, pero la tasa de reparación media para otros lenguajes es inferior al 10%, lo que pone de manifiesto que la reparación de código multilingüe sigue siendo un desafío para los grandes modelos.

Algunos modelos principales muestran un rendimiento superior en Python, mientras que sus resultados son deficientes en otros lenguajes. Además, la tasa de reparación de los modelos disminuye a medida que aumenta la dificultad de la tarea.

Para facilitar la aplicación del aprendizaje por refuerzo en el ámbito de la programación automática, el equipo también ha publicado Multi-SWE-RL, que proporciona 4723 ejemplos y un entorno Docker reproducible, con funciones de inicio con un solo clic y evaluación automática, creando una base de datos estandarizada para el entrenamiento de RL. Además, el equipo ha lanzado un plan para la comunidad de código abierto, invitando a desarrolladores e investigadores a participar en la ampliación del conjunto de datos, la evaluación de nuevos métodos, etc., para promover conjuntamente el desarrollo del ecosistema RL for Code.

El equipo de modelos de lenguaje grande Doubao de ByteDance espera que Multi-SWE-bench impulse la tecnología de programación automática a nuevas cotas, y en el futuro seguirá ampliando su cobertura para ayudar a los grandes modelos a lograr mayores avances en el campo de la "ingeniería de software automatizada".

Multi-SWE-bench Modelograndedefrijoles Conjuntodedatosdereferenciadecorreccióndecódigo Evaluacióndelacapacidaddecodificacióndemodelosgrandes

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily