Wikipedia anunció recientemente que lanzará un conjunto de datos optimizado para el entrenamiento de modelos de inteligencia artificial en colaboración con Kaggle, la plataforma de ciencia de datos de Google. Esta iniciativa tiene como objetivo reducir la extracción de datos de Wikipedia por parte de los desarrolladores de IA mediante programas de rastreo web (crawlers), protegiendo así el ancho de banda y los recursos del servidor de la plataforma.

Wikipedia

El conjunto de datos incluye información estructurada de Wikipedia en inglés y francés, con buena legibilidad mecánica, facilitando a los desarrolladores de IA el modelado, el ajuste fino y el análisis de datos. La Fundación Wikimedia afirma que este conjunto de datos se publica con una licencia abierta y abarca resúmenes de investigación, descripciones breves, enlaces a imágenes, datos de infobox y varias secciones de los artículos, pero excluye elementos no textuales como referencias y archivos de audio.

Wikimedia espera que los usuarios de Kaggle puedan acceder a la información de forma más conveniente a través de este conjunto de datos, evitando así los desafíos técnicos que conlleva la extracción directa del texto original de los artículos. El acceso de cada vez más programas de IA automatizados a Wikipedia está suponiendo una pesada carga para los servidores de Wikipedia.

Brenda Flynn, responsable de alianzas de Kaggle, afirmó que Kaggle está encantada de albergar los datos de la Fundación Wikimedia. Señaló que Kaggle se compromete a mantener la accesibilidad, disponibilidad y utilidad de los datos para servir a una comunidad más amplia de aprendizaje automático.

A través de esta colaboración, Wikipedia no solo protege sus propios recursos, sino que también facilita el acceso a pequeñas empresas y científicos de datos independientes, impulsando el desarrollo y la aplicación de la inteligencia artificial.

Puntos clave:

🌐 Wikipedia y Kaggle colaboran para lanzar un conjunto de datos estructurados en inglés y francés, con el objetivo de reducir la extracción de datos por parte de los rastreadores de IA.

🗂️ El conjunto de datos incluye resúmenes de investigación, descripciones breves y enlaces a imágenes, con licencia abierta y fácil uso para los desarrolladores de IA.

🔧 Kaggle se compromete a mantener la accesibilidad de los datos, apoyando la investigación de pequeñas empresas y científicos de datos independientes.