Recentemente, um novo estudo chamou a atenção ao acusar a OpenAI de usar livros pagos da O'Reilly Media para treinar seu mais recente modelo de IA sem permissão. O estudo foi publicado pela AI Disclosures Project, uma organização sem fins lucrativos fundada em 2024 pelo magnata da mídia Tim O'Reilly e pelo economista Ilan Strauss.
Modelos de IA podem ser vistos como motores de previsão complexos que aprendem padrões a partir de grandes quantidades de dados (incluindo livros, filmes, programas de televisão etc.) para fazer inferências sobre prompts simples. Quando um modelo escreve, como ao criar um artigo sobre tragédias gregas ou gerar imagens estilizadas, ele está extraindo informações de um vasto banco de dados, em vez de criar algo totalmente novo.
À medida que mais laboratórios de IA, incluindo a OpenAI, começam a usar dados gerados por IA para treinar modelos, a fim de lidar com o esgotamento dos dados do mundo real (principalmente recursos da web pública), a forma como os modelos são treinados está mudando. No entanto, os riscos de depender totalmente de dados sintéticos fazem com que muitas organizações ainda optem por usar dados reais para treinamento.
O artigo de pesquisa afirma que o modelo GPT-4o da OpenAI provavelmente foi treinado com livros pagos da O'Reilly, sem um acordo de licença com a O'Reilly. O estudo mostra que o GPT-4o tem uma capacidade significativamente maior de reconhecer o conteúdo dos livros pagos da O'Reilly em comparação com o modelo anterior GPT-3.5 Turbo.
Os pesquisadores usaram um método chamado DE-COP para detectar conteúdo com direitos autorais nos dados de treinamento de modelos de linguagem. No estudo, os autores analisaram o conhecimento do GPT-4o, GPT-3.5 Turbo e outros modelos da OpenAI, usando extratos de 13.962 parágrafos de 34 livros da O'Reilly para estimar a probabilidade desses extratos estarem presentes nos dados de treinamento do modelo.
Os resultados da pesquisa mostram que o GPT-4o exibiu maior reconhecimento de mais conteúdo de livros pagos da O'Reilly, sugerindo que o modelo pode ter tido acesso a esse conteúdo não público durante o treinamento.
No entanto, os pesquisadores também apontam que esta não é uma prova conclusiva, e a OpenAI pode ter obtido esse conteúdo por meio de cópia e colagem por usuários. Além disso, o estudo não avaliou os modelos mais recentes da OpenAI, portanto, não se pode descartar a possibilidade de que esses modelos não tenham usado livros pagos da O'Reilly em seu treinamento.
Embora a OpenAI tenha pago por alguns dados de treinamento e tenha acordos com editores de notícias, redes sociais etc., suas práticas de uso de dados de treinamento ainda são questionadas por várias partes no contexto legal atual. Este estudo certamente coloca a OpenAI em uma posição mais difícil em meio às inúmeras ações judiciais sobre o uso de dados de treinamento.
Pontos importantes:
📚 A OpenAI é acusada de usar livros pagos da O'Reilly para treinar modelos de IA sem autorização.
🔍 O estudo mostra que a capacidade do GPT-4o de reconhecer livros da O'Reilly é significativamente maior do que a de modelos anteriores.
⚖️ A OpenAI enfrenta múltiplos desafios legais em relação ao uso de dados de treinamento.