Recientemente, la empresa de inteligencia artificial Anthropic ha llamado la atención del público debido a su forma única de digitalizar libros. Según informes de medios extranjeros como Ars Technica, Anthropic gastó millones de dólares para comprar una gran cantidad de libros físicos con el fin de entrenar a su asistente de IA, Claude, y los convirtió en archivos digitales desmontándolos y escaneándolos. Después de este proceso, los libros originales se desecharon directamente.

Los documentos judiciales revelaron que Anthropic contrató a Tom Turvey en febrero de 2024, quien había participado en asuntos relacionados con el proyecto Google Books, encargado de "obtener libros de todo el mundo". Este movimiento obviamente buscaba aprovechar el modelo reconocido por los tribunales como razonable en el proceso de digitalización de libros de Google.
El juez William Alsup consideró en su decisión que el método de escaneo de Anthropic constituye uso justo, ya que los libros fueron adquiridos legalmente y luego de escanearlos se destruyeron inmediatamente, siendo los archivos digitales exclusivamente para uso interno y no difundidos públicamente. Señaló que esta conversión puede considerarse un procesamiento digital "de ahorro de espacio", caracterizado por la "naturaleza transformadora" dentro del uso justo. Sin embargo, ciertos actos anteriores de piratería afectaron su legitimidad.
El entrenamiento de IA requiere grandes cantidades de datos de texto de alta calidad; construir modelos de lenguaje grandes implica introducir miles de millones de palabras en redes neuronales para establecer relaciones entre palabras y conceptos. La calidad de los datos influye directamente en la precisión de las salidas del modelo, por lo tanto, muchas empresas de IA necesitan obtener contenido editorial de alta calidad y generalmente no quieren perder tiempo negociando autorizaciones.
El principio de "primera venta" en Estados Unidos permite a los compradores manejar los libros físicos tras su compra, lo que convierte la compra de libros en una forma legítima de "evadir" problemas. Sin embargo, Anthropic también optó inicialmente por evadir los problemas de derechos de autor, e incluso utilizó veces libros electrónicos piratas. Tras consideraciones legales, la empresa comenzó a buscar alternativas más seguras y finalmente decidió adquirir libros usados para obtener textos de entrenamiento de alta calidad y simplificar el proceso de autorización.
Para acelerar el proceso de digitalización, Anthropic utilizó un método de "escaneo destructivo", comprando grandes cantidades de libros, abriéndolos, cortándolos y escaneándolos en archivos PDF legibles por máquina, todo ello costando millones de dólares. Aunque actualmente existen tecnologías de escaneo no destructivas maduras, como los métodos desarrollados por Internet Archive que preservan los libros originales, el método elegido por Anthropic sigue generando amplias discusiones.
Puntos clave:
📚 Anthropic gastó millones de dólares en comprar libros físicos y los convirtió en archivos digitales mediante desmontaje y escaneo, para entrenar al asistente de IA Claude.
⚖️ El juez dictaminó que su método de escaneo constituye uso justo, ya que los libros fueron adquiridos legalmente y destruidos después de ser escaneados.
🔄 El entrenamiento de IA requiere grandes cantidades de datos de texto de alta calidad, y Anthropic aceleró el proceso de digitalización de libros mediante el "escaneo destructivo".