A tecnologia de robôs está passando por uma transformação fundamental. O projeto Gemini Robotics, recentemente lançado pelo DeepMind, apresenta dois novos modelos que trabalham em conjunto, representando o primeiro sistema de robôs capaz de "pensar" antes de agir. Essa inovação pode mudar radicalmente a limitação atual dos robôs, que normalmente executam apenas tarefas específicas.
A tecnologia de inteligência artificial gerativa já é comum na criação de textos, imagens, áudios e vídeos. Agora, a mesma tecnologia está sendo aplicada para gerar instruções de ação para robôs. A equipe do DeepMind acredita que a inteligência artificial gerativa é especialmente importante para a tecnologia de robôs, pois permite desbloquear características funcionais gerais.
O problema central enfrentado pelos robôs atualmente é a excessiva especialização. Cada robô precisa ser treinado intensamente para tarefas específicas e, ao executar outras tarefas, se sai mal. Carolina Parada, chefe da divisão de robótica do DeepMind, afirmou: "Os robôs de hoje são altamente personalizados e difíceis de implantar, geralmente levando meses para instalar uma unidade de robô capaz de executar apenas uma tarefa específica."

As características básicas dos sistemas gerativos tornam os robôs impulsionados por IA mais genéricos. Eles podem lidar com ambientes e espaços de trabalho totalmente novos, sem precisar ser reprogramados. O método atual de tecnologia robótica do DeepMind depende da colaboração de dois modelos: um responsável por pensar e outro por executar.
Esses dois novos modelos recebem os nomes Gemini Robotics 1.5 e Gemini Robotics-ER 1.5. O primeiro é um modelo visual-linguístico-acional, capaz de gerar instruções de ação para robôs usando dados visuais e textuais. O "ER" no segundo modelo significa raciocínio corporificado, um modelo visual-linguístico que recebe entradas visuais e textuais e gera etapas necessárias para completar tarefas complexas.
O Gemini Robotics-ER 1.5 é o primeiro sistema de IA para robôs com capacidade de raciocínio simulado, similar ao processo de raciocínio dos chatbots modernos de texto. O DeepMind o chama de "capacidade de pensar", embora esse termo possa não ser exatamente preciso no contexto de inteligência artificial gerativa. Segundo o DeepMind, o modelo ER obteve resultados de topo em testes acadêmicos e internos, indicando que é capaz de tomar decisões precisas sobre como interagir com o espaço físico. No entanto, ele próprio não executa nenhuma ação, o que exige a cooperação com o Gemini Robotics 1.5.
Por exemplo, ao precisar que o robô organize roupas em branco e colorido: o Gemini Robotics-ER 1.5 processa essa solicitação e analisa as imagens do ambiente físico. Esse sistema de IA também pode acessar ferramentas como a pesquisa do Google para coletar mais dados. Em seguida, o modelo ER gera instruções em linguagem natural, fornecendo aos robôs as etapas específicas necessárias para completar a tarefa.
A inovação dessa arquitetura de dois modelos está em separar o raciocínio da execução. O modelo de raciocínio se concentra em compreender os requisitos da tarefa e as condições do ambiente, elaborando um plano detalhado; enquanto o modelo de execução é responsável por transformar esses planos em ações específicas para o robô. Essa divisão de tarefas permite que o sistema de robôs tenha tanto capacidade de pensamento complexo quanto eficiência na execução precisa.
Em termos de tendências tecnológicas, essa inovação pode marcar uma mudança importante na evolução da tecnologia robótica, indo da especialização para a generalização. Robôs tradicionais exigem muito treinamento e ajuste para cada nova tarefa, enquanto robôs com capacidade de inteligência artificial gerativa teoricamente podem se adaptar rapidamente a novos cenários de trabalho por meio de instruções em linguagem natural.
Claro, essa tecnologia ainda está em fase inicial e pode enfrentar diversos desafios na implementação prática. A performance dos robôs em ambientes reais complexos, a segurança e o controle de custos precisam ser resolvidos. No entanto, essa tentativa do DeepMind certamente aponta uma direção promissora para o futuro da tecnologia robótica.
Com o avanço contínuo da tecnologia de IA, podemos estar prestes a testemunhar um momento histórico em que os robôs deixam de ser meros executores de tarefas únicas e se tornam verdadeiros assistentes inteligentes.








