Recentemente, a empresa de inteligência artificial Anthropic chamou a atenção do público por sua forma única de digitalização de livros. Segundo relatos da mídia estrangeira Ars Technica, a Anthropic gastou milhões de dólares para comprar uma grande quantidade de livros físicos para treinar seu assistente de IA Claude, e os transformou em arquivos digitais por meio de desmontagem e digitalização. Após esse processo, os livros originais foram diretamente descartados.

Documentos judiciais revelaram que a Anthropic contratou Tom Turvey em fevereiro de 2024, que já havia participado de assuntos relacionados ao projeto Google Books, responsável por "adquirir livros de todo o mundo". Essa ação claramente visava aproveitar o modelo reconhecido como uso justo pelo tribunal no processo de digitalização de livros da Google.
O juiz William Alsup, em sua decisão, considerou que o método de digitalização da Anthropic constitui uso justo, pois os livros eram comprados legalmente e imediatamente descartados após a digitalização, com os arquivos digitais sendo usados apenas internamente e não divulgados externamente. Ele destacou que essa conversão pode ser considerada um tratamento digital que "salva espaço", apresentando uma característica de "transformação" dentro do uso justo. No entanto, as ações anteriores de pirataria tiveram algum impacto na legalidade.
A treinamento de IA requer grandes quantidades de dados de texto de alta qualidade. A construção de modelos de linguagem de grande escala exige que bilhões de palavras sejam introduzidas na rede neural para estabelecer relações entre palavras e conceitos. A qualidade dos dados afeta diretamente a precisão das saídas do modelo, portanto, muitas empresas de IA precisam urgentemente obter conteúdo publicado de alta qualidade, geralmente sem querer perder tempo negociando autorizações.
O princípio da "venda inicial" nos Estados Unidos permite que os compradores tratem livremente dos livros físicos após adquiri-los, tornando a compra de livros uma forma legítima de "contornar" o problema. No entanto, a Anthropic também escolheu inicialmente contornar questões de direitos autorais, às vezes usando livros eletrônicos pirateados. Após considerações legais, a empresa começou a buscar alternativas mais seguras, decidindo finalmente comprar livros usados para obter textos de treinamento de alta qualidade e simplificar o processo de autorização.
Para acelerar o processo de digitalização, a Anthropic utilizou um método chamado "digitalização destrutiva", comprando grandes quantidades de livros, abrindo-os, cortando-os e digitalizando-os em arquivos PDF legíveis por máquinas, tudo isso custando milhões de dólares. Apesar de técnicas de digitalização não destrutivas já estarem maduras, como os métodos desenvolvidos pelo Internet Archive que preservam os livros originais, o método escolhido pela Anthropic ainda gerou ampla discussão.
Destaque:
📚 A Anthropic gastou milhões de dólares comprando livros físicos e os transformou em arquivos digitais por meio de desmontagem e digitalização, para treinar seu assistente de IA Claude.
⚖️ O juiz considerou que o método de digitalização da Anthropic constitui uso justo, pois os livros foram comprados legalmente e descartados após a digitalização.
🔄 O treinamento de IA exige grandes quantidades de dados de texto de alta qualidade, e a Anthropic acelerou o processo de digitalização de livros através da "digitalização destrutiva".