Recentemente, o laboratório XLANG da Universidade de Hong Kong, juntamente com a Moonshot AI, a Universidade de Stanford e outras instituições, lançou um novo framework chamado OpenCUA. O objetivo deste projeto é ajudar os desenvolvedores a construir e expandir facilmente agentes de uso computacional (CUA), permitindo que cada pessoa tenha seu próprio assistente de computador.
O lançamento do framework OpenCUA marca mais um avanço nos agentes de uso computacional. Ele não apenas fornece uma infraestrutura de anotação sem emenda para capturar demonstrações do uso humano no computador, mas também integra um conjunto de dados chamado AgentNet, que abrange tarefas de uso computacional em larga escala. Esse conjunto de dados cobre mais de 200 aplicativos e sites, além de três principais sistemas operacionais, oferecendo aos desenvolvedores um suporte rico em dados.
Além disso, o OpenCUA possui um fluxo de trabalho escalável que pode transformar as demonstrações em pares "estado - ação", impulsionando a capacidade de raciocínio em longas cadeias. Isso significa que os desenvolvedores podem facilmente construir assistentes inteligentes personalizados, ajudando os usuários a completarem suas tarefas de forma mais eficiente.
O professor Yu Tao, responsável pelo projeto, afirmou que o OpenCUA visa permitir que "todos possam criar seus próprios agentes de computador personalizados" por meio da divulgação completa de dados, ferramentas e modelos. O framework se saiu bem em vários benchmarks-chave, superando até mesmo o GPT-4o mais avançado atualmente, tornando-se a solução mais poderosa para CUA de código aberto.
Com o lançamento do OpenCUA, a aplicação de agentes computacionais se tornará mais ampla e conveniente. Os desenvolvedores não só poderão personalizar conforme suas necessidades, mas também utilizar esse framework para melhorar a experiência do usuário no uso do computador. Vale destacar que este projeto contou com a participação de várias universidades e empresas renomadas, mostrando a cooperação e o ganho mútuo no campo de pesquisa em agentes dentro da indústria tecnológica.
O código aberto do OpenCUA oferece novas possibilidades para o desenvolvimento de assistentes inteligentes no futuro. Vamos aguardar ansiosamente como a tecnologia continuará a melhorar nossa produtividade no trabalho e na vida cotidiana.
Endereço do projeto: https://opencua.xlang.ai/
Endereço do artigo: https://arxiv.org/pdf/2508.09123