Recentemente, a empresa Meta lançou sua nova série de modelos J1, uma tecnologia inovadora destinada a melhorar a capacidade de julgamento da IA. Ao combinar métodos de aprendizado por reforço e dados sintéticos no treinamento, o modelo J1 não apenas alcançou um progresso significativo na precisão das avaliações, mas também se destacou em termos de equidade. A notícia foi divulgada pelo portal de tecnologia marktechpost, chamando atenção para essa novidade.
Com o constante desenvolvimento da tecnologia dos grandes modelos linguísticos (LLM), o campo de aplicação da IA está expandindo-se continuamente, passando de consultas tradicionais de informações para avaliação e julgamento. Este novo modelo conhecido como "LLM como Juiz" permite que os modelos de IA revisem as saídas de outros modelos linguísticos, tornando-se uma ferramenta essencial para aprendizado por reforço, testes de benchmark e alinhamento sistemático. Embora promissor, este modelo enfrenta diversos desafios, como consistência nos julgamentos e profundidade insuficiente nas inferências.
O modelo J1 da Meta fez inovações significativas para superar esses desafios. Métodos tradicionais de avaliação geralmente dependem de dados rotulados manualmente, mas a coleta desses dados é cara e demorada. Assim, a equipe do J1 desenvolveu um conjunto de dados com 22 mil pares sintéticos de preferências, incluindo 17 mil corpus do WildChat e 5 mil consultas matemáticas. Essa abordagem aumentou consideravelmente a capacidade de generalização do modelo. Além disso, o J1 introduziu o algoritmo Group Relative Policy Optimization (GRPO), simplificando o processo de treinamento e eliminando viéses causados pela ordem das respostas através de um aprendizado posicional independente.
Os resultados dos testes mostram que o J1 superou significativamente seus pares. No teste de benchmark PPE, o J1-Llama-70B alcançou uma precisão de 69,6%, superando o DeepSeek-GRM-27B e o EvalPlanner-Llama-70B. Além disso, o menor modelo J1-Llama-8B obteve 62,2%, muito acima dos 55,5% do EvalPlanner-Llama-8B. O J1 demonstrou excelentes desempenhos em vários testes de benchmark, exibindo suas poderosas capacidades em tarefas verificáveis e subjetivas.
Através dessas inovações, o modelo J1 da Meta certamente estabelece uma base mais sólida para o futuro uso da IA, especialmente na execução de tarefas de推理 complexas e tomadas de decisão ética.