Hace poco, la empresa de inteligencia artificial Anthropic invirtió millones de dólares para comprar y "desmontar" muchas obras literarias con el fin de entrenar a su asistente de inteligencia artificial Claude. Este acto ha generado un amplio interés público y debate en el ámbito legal.

Según un informe de medios extranjeros, Ars Technica, Anthropic adoptó un método controvertido para obtener datos de entrenamiento. Ellos desmontaron y escanearon físicamente grandes cantidades de libros, luego destruyeron los originales directamente. Este método fue revelado en documentos judiciales, y el juez William Alsup emitió una sentencia considerando que este tipo de escaneo constituye uso razonable. El juez señaló que los libros adquiridos por Anthropic fueron obtenidos mediante canales legales y se destruyeron inmediatamente después del escaneo, y los archivos digitales solo se utilizaron internamente sin difundirlos al público. Esta decisión proporciona un marco legal para otras empresas de inteligencia artificial al obtener datos.

Robots IA inteligencia artificial (2)

Nota de crédito de la imagen: La imagen fue generada por IA, el proveedor de licencias es Midjourney

Detrás de esta estrategia, Anthropic busca aprender de la experiencia exitosa del proyecto Google Books. El CEO de Anthropic, Amodei, mencionó anteriormente que en sus primeras etapas, la empresa consideró usar libros electrónicos piratas, pero debido a los riesgos legales, finalmente optó por adquirir libros usados para obtener textos de alta calidad para el entrenamiento. A través del "escaneo destructivo", la empresa puede convertir rápidamente los libros en formatos PDF compatibles con las máquinas, proporcionando así suficientes datos para el entrenamiento de modelos de inteligencia artificial.

No obstante, ya existe una tecnología de escaneo no destructivo bastante avanzada. Por ejemplo, Internet Archive desarrolló un método de digitalización que preserva los libros originales. OpenAI y Microsoft también han colaborado recientemente con la Biblioteca de la Universidad de Harvard para digitalizar casi un millón de libros de dominio público, asegurando que los originales se conserven adecuadamente. Comparado con estos competidores, las prácticas de Anthropic parecen más radicales, pero sin duda han abierto nuevas ideas para el campo del entrenamiento de inteligencia artificial.

A medida que avanza la inteligencia artificial, cómo obtener datos de entrenamiento respetando los derechos de autor seguirá siendo un tema constante en la industria. Los intentos de Anthropic, aunque generaron controversia, también han proporcionado nuevas posibilidades para el desarrollo futuro de la inteligencia artificial.