Recientemente, un nuevo estudio ha generado preocupación al acusar a OpenAI de utilizar libros de pago de O'Reilly Media para entrenar su último modelo de IA sin obtener la debida autorización. Este estudio fue publicado por una organización sin fines de lucro llamada AI Disclosures Project, fundada en 2024 por el magnate de los medios Tim O'Reilly y el economista Ilan Strauss.

Derechos de autor (1)

Los modelos de IA pueden considerarse complejos motores de predicción que aprenden patrones a partir de grandes cantidades de datos (incluidos libros, películas, programas de televisión, etc.) para realizar inferencias a partir de indicaciones sencillas. Cuando un modelo escribe, por ejemplo, un artículo sobre tragedias griegas o crea una imagen estilizada, en realidad está extrayendo información de un vasto repositorio de conocimiento, en lugar de crear algo completamente nuevo.

A medida que más laboratorios de IA, incluido OpenAI, comienzan a utilizar datos generados por IA para entrenar modelos, como respuesta al creciente agotamiento de los datos del mundo real (principalmente recursos de la web pública), la forma de entrenar los modelos está cambiando. A pesar de ello, el riesgo de depender completamente de datos sintéticos hace que muchas instituciones sigan optando por utilizar datos reales para el entrenamiento.

El documento de investigación señala que el modelo GPT-4o de OpenAI probablemente se entrenó con libros de pago de O'Reilly, sin que O'Reilly hubiera llegado a un acuerdo de licencia con OpenAI. El estudio muestra que GPT-4o tiene una capacidad significativamente mayor para reconocer el contenido de los libros de pago de O'Reilly en comparación con el modelo anterior GPT-3.5Turbo.

Los investigadores utilizaron un método llamado DE-COP para detectar contenido con derechos de autor en los datos de entrenamiento de los modelos de lenguaje. En el estudio, los autores analizaron el conocimiento de GPT-4o, GPT-3.5Turbo y otros modelos de OpenAI, utilizando extractos de 13962 párrafos de 34 libros de O'Reilly para estimar la probabilidad de que estos extractos estuvieran presentes en los datos de entrenamiento del modelo.

Los resultados del estudio muestran que GPT-4o mostró un mayor reconocimiento de más contenido de libros de pago de O'Reilly, lo que sugiere en cierta medida que el modelo pudo haber tenido acceso a este contenido no público durante su entrenamiento.

Sin embargo, los investigadores también señalan que esta no es una prueba concluyente, y que OpenAI podría haber obtenido este contenido a través de la copia y pegado por parte de los usuarios. Además, el estudio no evaluó los modelos más recientes de OpenAI, por lo que no se descarta la posibilidad de que estos modelos no hayan utilizado libros de pago de O'Reilly para su entrenamiento.

Aunque OpenAI ha pagado por algunos de sus datos de entrenamiento y ha llegado a acuerdos con editoriales de noticias, redes sociales, etc., su práctica de uso de datos de entrenamiento sigue siendo cuestionada por varias partes en el contexto legal actual. Este estudio sin duda presenta un desafío aún mayor para OpenAI en las numerosas demandas relacionadas con el uso de datos de entrenamiento.

Puntos clave:

📚 OpenAI es acusada de usar libros de pago de O'Reilly para entrenar modelos de IA sin autorización.

🔍 El estudio muestra que GPT-4o reconoce el contenido de los libros de O'Reilly mucho mejor que los modelos anteriores.

⚖️ OpenAI enfrenta múltiples desafíos legales por el uso de sus datos de entrenamiento.