Detrás del rápido desarrollo de la inteligencia artificial, surge un problema grave: la creciente dificultad para obtener datos. Un estudio reciente del MIT y otras instituciones ha descubierto que los datos web, antes fácilmente accesibles, ahora son cada vez más difíciles de obtener, lo que supone un gran desafío para la formación e investigación de la IA.

Los investigadores han observado que varios conjuntos de datos de código abierto, como C4, RefineWeb y Dolma, están viendo cómo los sitios web que rastrean endurecen rápidamente sus acuerdos de licencia. Esto no solo afecta al entrenamiento de modelos de IA comerciales, sino que también obstaculiza la investigación de organizaciones académicas y sin fines de lucro.

image.png

Este estudio fue realizado conjuntamente por cuatro directores de equipo del MIT Media Lab, el Wellesley College y la empresa emergente de IA Raive. Señalan que las restricciones de datos están aumentando y que la asimetría e inconsistencia de las licencias son cada vez más evidentes.

El equipo de investigación utilizó el protocolo de exclusión de robots (Robots Exclusion Protocol, REP) y las condiciones de servicio (Terms of Service, ToS) de los sitios web como metodología. Descubrieron que incluso los rastreadores de grandes empresas de IA como OpenAI se enfrentan a restricciones cada vez más estrictas.

image.png

Las predicciones del modelo SARIMA indican que, en el futuro, las restricciones de datos impuestas por los sitios web, ya sea a través de robots.txt o de las ToS, seguirán aumentando. Esto sugiere que la obtención de datos web abiertos será cada vez más difícil.

El estudio también reveló que los datos recopilados de la web no siempre son compatibles con los fines de entrenamiento de los modelos de IA, lo que puede tener implicaciones para la alineación de modelos, las prácticas de recopilación de datos y los derechos de autor.

El equipo de investigación aboga por acuerdos más flexibles que reflejen la voluntad de los propietarios de los sitios web, separando los casos de uso permitidos de los no permitidos, y sincronizándolos con las condiciones de servicio. Asimismo, esperan que los desarrolladores de IA puedan utilizar datos de la web abierta para el entrenamiento, y desean que la legislación futura apoye esta práctica.

Dirección del artículo: https://www.dataprovenance.org/Consent_in_Crisis.pdf