A equipe de tecnologia da Zhipu lançou recentemente um novo produto baseado nos resultados de pesquisa da equipe de tecnologia GLM - AutoGLM. Trata-se de um agente inteligente (Agent) capaz de simular a operação de um telefone celular por humanos, executando diversas tarefas. O lançamento do AutoGLM marca um avanço na inteligência artificial na área de "Uso de Telefone", aproximando ainda mais as aplicações de IA do dia a dia das pessoas.
O AutoGLM pode executar várias tarefas, como curtir e comentar posts no WeChat, comprar produtos de pedidos anteriores no Taobao, reservar hotéis no Ctrip, comprar passagens de trem no 12306, pedir comida pelo Meituan, etc. Seus cenários de aplicação não se limitam a isso; teoricamente, o AutoGLM pode realizar qualquer tarefa que um humano possa fazer em um dispositivo eletrônico visual, com uma lógica de operação semelhante à humana, sem a necessidade de criação de fluxos de trabalho complexos.
Atualmente, os usuários podem experimentar o AutoGLM-Web instalando o plugin "Zhipu Qingyan", um assistente de navegador que simula a navegação e cliques em páginas web, realizando automaticamente pesquisas avançadas, resumos e geração de conteúdo em sites. Além disso, o AutoGLM também está aberto para inscrição em testes beta no sistema Android e estabeleceu parcerias profundas com fabricantes de telefones como a Honor.
A tecnologia do AutoGLM é baseada na "interface intermediária de desacoplamento de agente inteligente básico" e na "estrutura de aprendizado de reforço de curso online autoevolutivo" desenvolvidas pela Zhipu, resolvendo problemas de antagonismo de capacidade, escassez de tarefas e dados de treinamento, sinais de feedback escassos e derivação de distribuição de estratégias na tarefa de planejamento e execução de agentes de modelos grandes. O AutoGLM pode melhorar continuamente a si mesmo, melhorando continuamente e de forma estável seu desempenho, semelhante à forma como as pessoas adquirem novas habilidades durante o crescimento.
Em termos de desafios tecnológicos, o AutoGLM resolveu a imprecisão na "execução de ações" e a falta de flexibilidade no "planejamento de tarefas". Através do design da "interface intermediária de desacoplamento de agente inteligente básico", os estágios de "planejamento de tarefas" e "execução de ações" são desacoplados por meio de uma interface intermediária de linguagem natural, o que resulta em uma grande melhoria na capacidade do agente inteligente. Simultaneamente, o AutoGLM adotou a "estrutura de aprendizado de reforço de curso online autoevolutivo" para aprender e melhorar as capacidades do agente inteligente de modelos grandes em ambientes Web e Phone em um ambiente online real.
O AutoGLM alcançou melhorias significativas de desempenho no uso de telefone e navegador web, superando o desempenho do GPT-4o e do Claude-3.5-Sonnet no benchmark de avaliação AndroidLab. No benchmark de avaliação WebArena-Lite, o AutoGLM apresentou uma melhoria de desempenho de aproximadamente 200% em relação ao GPT-4o, reduzindo a diferença na taxa de sucesso de controle GUI entre humanos e agentes inteligentes de modelos grandes.
Endereço do projeto:https://xiao9905.github.io/AutoGLM