No ano de 2022, quando o ChatGPT dominou o mundo, um pequeno grupo interno da OpenAI chamado MathGen estava trabalhando em uma pesquisa mais fundamental: ensinar modelos de IA a realizar raciocínio matemático. Hoje, esse trabalho tornou-se a tecnologia central para a criação de agentes de IA da OpenAI e desencadeou uma batalha por talentos na Califórnia. Este artigo analisará profundamente o caminho da OpenAI com seus agentes de IA e explorará como eles conseguiram, por meio de aprendizado reforçado e avanços computacionais, transformar um projeto de pesquisa discreto em uma visão ambiciosa de agente geral.
No ano de 2022, enquanto o ChatGPT se tornava famoso rapidamente por sua capacidade linguística e se tornava um dos produtos com o crescimento mais rápido da história, o pesquisador Hunter Lightman estava focado em uma tarefa completamente diferente: liderar um grupo chamado MathGen, ensinando os modelos da OpenAI a resolver problemas de matemática das competições do ensino médio.
Na época, os modelos da OpenAI tinham dificuldades em raciocínio matemático. No entanto, este projeto considerado como pesquisa básica tornou-se a base para os avanços posteriores da empresa. Hoje, os resultados deste grupo tornaram-se uma das tecnologias centrais para os modelos de raciocínio de IA mais avançados do setor.
O CEO da OpenAI, Sam Altman, em uma conferência de desenvolvedores em 2023, descreveu uma visão ambiciosa: "No final, você só precisa pedir ao computador que faça todas as tarefas para você." O que ele se refere é um sistema de IA capaz de executar tarefas complexas no computador, como um ser humano.
O renascimento do aprendizado por reforço: Do AlphaGo ao modelo o1
O caminho da OpenAI para os agentes de IA está intimamente ligado a uma técnica de treinamento chamada aprendizado por reforço (RL). Embora o RL tenha se tornado popular em 2016, quando o AlphaGo da Google DeepMind venceu o campeão mundial de Go, a inovação da OpenAI foi combiná-lo com modelos de linguagem grandes (LLM).
Os primeiros modelos da série GPT da OpenAI eram bons em processamento de texto, mas tinham dificuldades em matemática básica. Foi apenas em 2023 que a equipe da OpenAI fez uma descoberta codificada como "Strawberry". Essa tecnologia combinava LLM, aprendizado por reforço e a técnica de "cálculo no tempo de teste", que fornecia ao modelo tempo adicional e capacidade computacional para planejar, verificar e resolver problemas. Essa inovação permitiu que a OpenAI introduzisse o método de "cadeia de pensamentos" (CoT), melhorando significativamente o desempenho do modelo na resolução de problemas matemáticos desconhecidos.
Como descreveu o pesquisador El Kishky: "Eu vi o modelo começar a raciocinar. Ele percebia os erros e voltava atrás, também ficava frustrado. Parecia como se eu estivesse lendo a mente de alguém."
Essa combinação de tecnologias levou à criação do modelo de raciocínio da OpenAI, o o1. As habilidades de planejamento e verificação de fatos do o1 forneceram uma base sólida para criar poderosos agentes de IA. Lightman disse que a criação do o1 "resolvia um problema que me困扰 por anos", sendo um dos momentos mais emocionantes da sua carreira.
O valor do o1 e a batalha por talentos
No outono de 2024, a OpenAI lançou o modelo o1, surpreendendo o mundo. Essa descoberta demonstrou que era possível continuar melhorando o desempenho dos modelos com novas técnicas de treinamento. Em menos de um ano, os 21 pesquisadores por trás do o1 tornaram-se os talentos mais cobiçados na Califórnia.
Mark Zuckerberg conseguiu contratar cinco pesquisadores do o1 para se juntarem à nova divisão de superinteligência da Meta, oferecendo mais de 100 milhões de dólares em salários, incluindo Zhao Shengjia, nomeado cientista-chefe do laboratório. Esse movimento destaca a importância estratégica dos modelos de raciocínio de IA na competição tecnológica atual.
O futuro dos agentes de IA: Da programação a tarefas subjetivas
Ainda que os modelos da OpenAI tenham conquistado medalhas de ouro em competições internacionais de matemática, seus sistemas de IA mais recentes ainda produzem falsas impressões e enfrentam desafios ao executar tarefas complexas.
Atualmente, os agentes de IA disponíveis no mercado, como o Codex da OpenAI, são mais adequados para áreas bem definidas e verificáveis, como programação. No entanto, ainda enfrentam dificuldades ao lidar com tarefas complexas e subjetivas, como compras ou encontrar um estacionamento.
O pesquisador da OpenAI Noam Brown afirma que a empresa está explorando novas tecnologias de aprendizado por reforço genérico para lidar com essas tarefas difíceis de verificar. Com esse método, a OpenAI criou um modelo que pode gerar vários "agentes", explorando várias ideias e escolhendo a melhor resposta. Empresas como Google e xAI já estão adotando tecnologias semelhantes.
A OpenAI espera consolidar sua posição no setor de IA com os próximos modelos, como o GPT-5. El Kishky afirma que o objetivo final da OpenAI é criar agentes de IA capazes de compreender intuitivamente as intenções dos usuários, sem configurações complicadas.
Ainda que a OpenAI tenha liderado a indústria de inteligência artificial há alguns anos, agora empresas como Google, Anthropic, xAI e Meta estão se aproximando. A questão não é mais se a OpenAI conseguirá seu futuro de agentes de IA, mas sim se será a primeira a realizá-lo.