Nos últimos anos, os modelos de linguagem grandes (LLMs) têm sido cada vez mais usados em várias áreas, desde a criação de conteúdo e auxílio à programação até a otimização de mecanismos de busca, demonstrando sua grande capacidade. No entanto, em pesquisas biomédicas, o uso desses modelos ainda enfrenta desafios relacionados à transparência, reprodutibilidade e personalização.
Para enfrentar esse problema, a Universidade de Heidelberg e o Instituto Europeu de Bioinformática (EMBL-EBI) desenvolveram em conjunto um framework Python de código aberto — BioChatter — com o objetivo de ajudar pesquisadores biomédicos a usar LLMs com mais facilidade.
Observação da fonte: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney
O conceito por trás do BioChatter é simplificar a complexidade técnica, permitindo que os pesquisadores se concentrem em suas pesquisas sem se preocupar com habilidades de programação ou aprendizado de máquina. Com esse framework, os pesquisadores podem extrair dados relevantes de bancos de dados e literatura biomédica e acessar informações em tempo real de ferramentas bioinformáticas externas. Tudo isso graças à integração perfeita do BioChatter com o grafo de conhecimento BioCypher, que conecta dados importantes como mutações genéticas e associações fármaco-doença, apoiando significativamente a análise de conjuntos de dados complexos.
As principais funcionalidades do BioChatter incluem: interação básica de perguntas e respostas com vários modelos de linguagem grandes, engenharia de prompts reprodutível, consulta de grafos de conhecimento, geração aprimorada por recuperação e chamadas em cadeia de modelos. Mais humanamente, o BioChatter oferece uma interface API intuitiva, permitindo que os pesquisadores integrem facilmente suas funcionalidades em aplicativos web, interfaces de linha de comando ou notebooks Jupyter.
Na avaliação experimental, a equipe de pesquisa criou testes de referência personalizados para avaliar com mais precisão o desempenho do BioChatter. Os resultados mostraram que os modelos que usam o BioChatter são significativamente melhores na geração de consultas corretas do que os modelos que não usam o mecanismo de prompts, o que oferece um forte suporte para a aplicação prática do BioChatter.
No futuro, a equipe do BioChatter continuará colaborando com bancos de dados de ciências da vida como o Open Targets, com o objetivo de integrar dados de genética humana e genômica para ajudar os usuários a identificar e priorizar alvos de medicamentos de forma mais eficiente. Além disso, eles estão desenvolvendo um sistema complementar chamado BioGather, que visa extrair informações de outros tipos de dados clínicos, como genômica, notas médicas e imagens, para resolver problemas complexos em medicina personalizada e desenvolvimento de medicamentos.
Com o BioChatter, os cientistas da área de pesquisa biomédica poderão usar LLMs de forma mais eficiente, impulsionando assim o progresso e a inovação na pesquisa científica.