Recentemente, o Google propôs um novo processo de triagem de aprendizado ativo, destinado a reduzir significativamente a quantidade de dados de treinamento necessários para ajustar modelos de linguagem grandes. De acordo com os resultados dos experimentos, esse método pode reduzir a quantidade de dados de treinamento para 1/10.000 da original, enquanto aumenta a consistência do modelo com as avaliações de especialistas humanos em 65%. Em aplicações práticas, como classificação de conteúdo publicitário e análise de segurança de dados financeiros, a demanda por dados de treinamento de alta fidelidade sempre foi muito alta, mas selecionar dados que atendam aos requisitos não só é difícil, mas também extremamente cara.
Nota da fonte da imagem: A imagem foi gerada por IA, e o serviço de licença da imagem é fornecido pela Midjourney
O novo método começa com um modelo inicial de zero ou poucos exemplos, onde o usuário define o conteúdo alvo por meio de dicas, por exemplo, perguntando se uma determinada propaganda é um "atalho para cliques". O modelo inicial marca as propagandas como "atalho para cliques" ou boas e gera um grande conjunto de dados rotulados. No entanto, esses conjuntos iniciais frequentemente apresentam desequilíbrio grave nas classes, levando a uma capacidade de identificação fraca do modelo.
Para resolver esse problema, os pesquisadores agruparam o conteúdo rotulado pelo modelo como propaganda "atalho para cliques" e boa, descobrindo que alguns grupos tinham sobreposição, indicando que o modelo comete erros facilmente nesses conteúdos. Assim, os pesquisadores podem selecionar pares de amostras desses grupos sobrepostos e submetê-los à avaliação de especialistas, controlando assim os custos de revisão e priorizando amostras que abrangem várias situações. As amostras obtidas têm valor e cobrem diversos cenários em que o modelo pode cometer erros.
Durante o ajuste fino do modelo, as anotações fornecidas pelos especialistas são divididas em dois grupos, um para avaliar a consistência do modelo e outro para o ajuste fino do modelo. Esse processo é repetido continuamente até que o desempenho do modelo atinja um nível próximo ao de especialistas humanos.
Os experimentos do Google utilizaram os modelos Gemini Nano-1 e Nano-2 e testaram duas tarefas com diferentes níveis de complexidade. Nos testes, cada tarefa usou cerca de 100.000 dados rotulados por terceirização, embora esses dados estivessem severamente desequilibrados. Os resultados mostraram que a consistência entre os especialistas era muito alta, enquanto a consistência entre os rótulos de terceirização e as avaliações dos especialistas era relativamente mediana. Com o novo método, um modelo com 3,25 bilhões de parâmetros obteve uma alinhamento significativamente melhor na tarefa de baixa dificuldade, usando apenas 250-450 dados, reduzindo drasticamente a quantidade de 100.000 dados originais, mantendo ainda bons resultados.
Em resumo, o novo método do Google demonstra que mesmo com poucos dados de alta qualidade, desde que a consistência nas anotações dos especialistas seja superior a 0,8, os modelos grandes também podem obter ótimos desempenhos durante o treinamento.
Principais pontos:
📉 A quantidade de dados de treinamento pode ser reduzida para 1/10.000, aumentando a precisão do modelo.
🤝 O novo método depende das avaliações dos especialistas e da iteração do modelo, garantindo a qualidade das amostras.
📊 Os experimentos mostram que o uso de poucos dados de alta qualidade pode atingir ou superar os resultados tradicionais com muitos dados.