No cruzamento entre inteligência artificial e ciência de dados, um framework chamado InfoSeek está em desenvolvimento ativo, com o objetivo de fornecer dados sintetizados de alta qualidade para tarefas complexas de pesquisa profunda. O InfoSeek utiliza um sistema de dois agentes, que explora entidades e relações em grandes textos, construindo gradualmente uma árvore de pesquisa e tratando de forma difusa os nós intermediários, para garantir a geração de subproblemas eficazes. Este processo transforma finalmente essas árvores de pesquisa em perguntas em linguagem natural, exigindo que os respondentes percorram toda a estrutura hierárquica para obter respostas completas.
O time de desenvolvimento do InfoSeek já publicou conjuntos de dados relacionados em plataformas conhecidas, para apoiar as pesquisas dos pesquisadores em seus próprios campos. Como exemplo, a construção da árvore de pesquisa sobre "Russet sparrow" (passarinho ruivo) envolve múltiplos níveis de entidades e relações, desde o nomeador John Gould até sua esposa Elizabeth Gould, passando pelas características associadas a essa espécie. Por meio deste método estruturado, os pesquisadores podem ver claramente como cada questão é decomposta e resolvida.
Outro exemplo é a pesquisa sobre o time feminino de futebol SV Werder Bremen. A primeira jogadora a marcar um gol, Doreen Nabwire, suas relações complexas com a instituição de desenvolvimento Mathare Youth Sports Association e seu local de nascimento Korogocho também são apresentadas de forma eficaz no contexto do framework InfoSeek. Dessa forma, os pesquisadores podem extrair informações-chave em uma estrutura multilayer, aprofundando assim sua compreensão dos problemas.
O InfoSeek também demonstrou desempenho forte nos testes tradicionais de saltos múltiplos, especialmente no BrowseComp-Plus, onde o modelo treinado se mostrou competitivo. Isso fornece novas ferramentas e ideias para pesquisas futuras, impulsionando o desenvolvimento adicional da tecnologia de síntese de dados.
No momento, o código e os dados do InfoSeek estão disponíveis sob a licença Apache 2.0, permitindo uso acadêmico e comercial, e incentivando referências apropriadas ao utilizá-los. Além disso, a equipe de desenvolvimento também pede apoio da comunidade, esperando obter mais atenção e feedback para promover a melhoria contínua e inovação do projeto.
Projeto: https://github.com/VectorSpaceLab/InfoSeek
Principais pontos:
🔍 O InfoSeek é um sistema de dois agentes que explora entidades e relações em textos para construir árvores de pesquisa complexas e gerar conjuntos de dados de alta qualidade.
🌳 Os exemplos de pesquisa incluem aves e times de futebol feminino, apresentando informações multi-níveis de forma estruturada, facilitando a compreensão e análise.
📈 O InfoSeek se destacou nos testes tradicionais de saltos múltiplos, contribuindo para o desenvolvimento da tecnologia de síntese de dados e oferecendo novas ferramentas para pesquisas futuras.




