A equipe NovaSky do laboratório de computação Sky do campus da Universidade da Califórnia, Berkeley, lançou na sexta-feira o modelo de raciocínio Sky-T1-32B-Preview, que se destacou em vários benchmarks importantes, rivalizando com as versões iniciais do o1 da OpenAI e, notavelmente, com um custo de treinamento extremamente baixo.

O Sky-T1-32B-Preview é o primeiro modelo de raciocínio de código aberto verdadeiramente replicável. A equipe NovaSky não apenas lançou o modelo, mas também divulgou o conjunto de dados usado para treiná-lo e o código de treinamento necessário, o que significa que o modelo pode ser replicado do zero. Como a equipe descreveu em um post de blog, "o custo de treinamento do Sky-T1-32B-Preview foi inferior a US$ 450, demonstrando a viabilidade de replicar capacidades de raciocínio avançadas de forma econômica". Recentemente, o treinamento de modelos com desempenho semelhante custava milhões de dólares. Essa redução drástica de custos é principalmente atribuída ao uso de dados de treinamento sintéticos ou gerados por outros modelos. Por exemplo, o modelo Palmyra X004, recentemente lançado pela empresa de IA Writer, foi treinado quase exclusivamente com dados sintéticos, com um custo de desenvolvimento de apenas US$ 700.000.

1_1693449769614_ai2023_Facial_AI_robots_a_lot_of_cash_on_the_conference_table_i_d531bb02-0ec5-4e0a-9f1c-a65fa11a4c51

Fonte da imagem: imagem gerada por IA, provedor de licenciamento de imagens Midjourney

Os modelos de raciocínio diferem dos modelos de IA comuns, pois são capazes de realizar verificação de fatos eficazmente, evitando assim algumas armadilhas comuns. No entanto, os modelos de raciocínio geralmente levam mais tempo para chegar a uma solução, variando de alguns segundos a alguns minutos. Sua maior confiabilidade em física, ciências e matemática é uma vantagem significativa.

A equipe NovaSky revelou que utilizou o modelo de raciocínio QwQ-32B-Preview da Alibaba para gerar os dados de treinamento iniciais do Sky-T1, posteriormente "refinando" os dados e usando o GPT-4o-mini da OpenAI para reformulá-los em um formato mais utilizável. O treinamento do Sky-T1, com seus 32 bilhões de parâmetros, usando 8 racks de GPUs Nvidia H100 levou cerca de 19 horas. A quantidade de parâmetros corresponde aproximadamente à capacidade do modelo de resolver problemas.

Em testes de desempenho, o Sky-T1 superou a versão inicial do o1 no MATH500 (um conjunto de desafios matemáticos de "nível de competição") e também superou a versão de demonstração do o1 em um conjunto de problemas do LiveCodeBench (uma avaliação de codificação). No entanto, o Sky-T1 teve um desempenho inferior à versão de demonstração do o1 no GPQA-Diamond, que inclui problemas de física, biologia e química que um estudante de doutorado deveria dominar. Além disso, a versão o1GA da OpenAI é mais poderosa do que a versão de demonstração, e a OpenAI espera lançar o modelo de raciocínio o3, com desempenho ainda melhor, nas próximas semanas.

Apesar disso, a equipe NovaSky afirma que o Sky-T1 é apenas o começo do desenvolvimento de modelos de código aberto com capacidades de raciocínio avançado. "No futuro, focaremos no desenvolvimento de modelos mais eficientes, mantendo um forte desempenho de raciocínio e explorando tecnologias avançadas para melhorar ainda mais a eficiência e precisão do modelo nos testes", escreveu a equipe em sua postagem. "Fique atento ao nosso progresso nesses projetos empolgantes". O surgimento desse modelo de raciocínio de código aberto certamente trouxe novas oportunidades e desafios para o campo da inteligência artificial, e seu desenvolvimento futuro merece atenção contínua.