Com o rápido desenvolvimento da tecnologia de inteligência artificial, várias empresas de startups de IA continuam a afirmar que seus produtos mudarão a maneira como as pessoas realizam seu trabalho e adquirem conhecimento. No entanto, uma pesquisa recentemente publicada na Royal Society revelou um problema sério nas novas gerações de modelos de IA ao resumir textos, causando grande preocupação. O estudo mostrou que, ao fornecer informações, os novos chatbots de IA têm uma probabilidade de até 73% de omitir informações-chave.

Robôs de IA Inteligência Artificial (3) Análise de Dados

Fonte da imagem: A imagem foi gerada por IA, com serviço de autorização da MidJourney.

O estudo analisou dez modelos de linguagem amplamente utilizados (LLM) e amostras de quase 5.000 resumos de pesquisas científicas, incluindo chatbots como ChatGPT-4o, ChatGPT-4.5, DeepSeek e LLaMA3.370B. Os resultados mostraram que, mesmo quando solicitado especificamente, os erros cometidos pelos chatbots ao omitir detalhes-chave são cinco vezes mais frequentes do que nos resumos científicos escritos por humanos.

Os pesquisadores apontaram: "Ao resumir textos científicos, os LLM podem omitir detalhes que limitam o alcance das conclusões da pesquisa, resultando em generalizações excessivas dos resultados originais." O que é ainda mais alarmante é que, à medida que os chatbots são atualizados, suas taxas de erro aumentam, contrariando completamente as promessas feitas pelos líderes do setor de IA. Por exemplo, entre 2023 e 2025, a taxa de uso do ChatGPT entre adolescentes nos EUA aumentou de 13% para 26%. No estudo, a versão antiga do ChatGPT-4Turbo tinha 2,6 vezes mais chances de omitir detalhes-chave do que a versão original, enquanto a nova versão ChatGPT-4o apresentava uma probabilidade de 9 vezes maior. De forma semelhante, o LLaMA3.370B da Meta tinha uma probabilidade de generalizar excessivamente 36,4 vezes maior em comparação com as versões anteriores.

Resumir grandes quantidades de dados em poucas frases simples é uma tarefa complexa. Embora os seres humanos possam intuitivamente extrair lições amplas de experiências específicas, isso é extremamente desafiador para programar em bots de conversação. Os pesquisadores destacaram que, em áreas como a medicina clínica, os detalhes são cruciais, e até mesmo pequenas omissões podem levar a consequências graves. Portanto, aplicar amplamente os LLM em vários setores, especialmente em áreas como saúde e engenharia, apresenta riscos significativos.

No entanto, a pesquisa também menciona que as sugestões fornecidas aos LLM influenciam significativamente os resultados de suas respostas, mas ainda não está claro se isso afetará sua capacidade de resumir artigos científicos. Isso abre caminho para futuros estudos. No geral, a menos que os desenvolvedores de IA consigam resolver eficazmente esses problemas nas novas gerações de LLM, as pessoas provavelmente continuarão dependendo de conteúdos elaborados por humanos para resumir relatórios científicos com precisão.

Em destaque:

🧠 A pesquisa descobriu que os novos chatbots de IA cometem erros ao omitir detalhes-chave em 73% das vezes.  

📈 As novas versões de chatbots apresentam taxas de erro crescentes, especialmente em um contexto onde o uso por jovens está aumentando rapidamente.  

🔍 As sugestões fornecidas aos LLM influenciam suas respostas, mas os efeitos sobre a capacidade de resumir artigos científicos ainda precisam ser estudados.