En los últimos años, con el rápido desarrollo de la tecnología de inteligencia artificial, la cuestión de las fuentes de datos utilizadas para entrenar modelos de IA de gran tamaño se ha convertido en un punto focal de atención en la industria. Muchas empresas destacadas parecen haber elegido utilizar grandes cantidades de contenido protegido por derechos de autor no autorizado como datos al construir sus modelos de IA. Esta "receta secreta" ha desencadenado intensos debates legales y ha colocado a los gigantes tecnológicos de Silicon Valley en el ojo del huracán.

En 2023, The New York Times presentó una demanda por primera vez contra OpenAI y Microsoft, abriendo oficialmente la batalla legal. Poco después, Meta enfrentó una demanda colectiva por supuestamente usar libros piratas en su modelo Llama, mientras que Anthropic también fue acusada por los datos de entrenamiento de su modelo Claude. Casi todos los principales actores enfrentan desafíos legales, ¿es realmente un "uso justo" utilizar obras protegidas por derechos de autor sin autorización como datos para entrenar IA?

Derechos de autor

En junio de 2025, la corte dio una señal importante en su decisión sobre el caso de Anthropic: aunque el entrenamiento del modelo podría considerarse un uso altamente "transformador", si las fuentes de datos implicaban material pirateado, generalmente no podía evadirse la acusación de infracción. Se espera que Anthropic pueda enfrentar compensaciones de hasta 75 mil millones de dólares, lo que ha dejado a todas las empresas de IA conmocionadas.

Para satisfacer la demanda de datos, las principales empresas de modelos han utilizado diversas formas "creativas" para obtener datos, algunas incluso andando cerca de la línea legal. Por ejemplo, OpenAI utiliza robots de rastreo para capturar ampliamente contenido de Internet, e incluso elimina información de derechos de autor durante el proceso; cuando los recursos de texto de alta calidad comenzaron a escasear, las empresas de IA se volvieron hacia otros formatos como videos y libros impresos, extrayéndolos mediante medios técnicos.

Además, algunas empresas han optado directamente por usar libros piratas. Por ejemplo, Meta fue acusada de usar libros piratas provenientes de "bibliotecas sombra" al entrenar su modelo Llama. En contraste, empresas conservadoras como Apple prefieren evitar riesgos legales mediante licencias legales y datos propios.

A medida que avanza el litigio legal, las estrategias de los titulares de derechos de autor están cambiando gradualmente, y el enfoque ya no es cómo la IA utiliza los datos, sino si la obtención de los datos es legal. Las decisiones judiciales muestran que, aunque el comportamiento de entrenamiento de la IA podría no constituir una infracción directa, el uso de recursos pirateados será severamente castigado.

Hoy en día, la industria de la IA enfrenta una guerra de derechos de autor sin precedentes, y cómo navegar en el borde de la ley y lograr innovación se ha convertido en un problema urgente para las empresas tecnológicas líderes.