Récemment, des chercheurs de l'Université des sciences et technologies de Chine (USTC) et des laboratoires Tencent Youtu ont proposé le framework Woodpecker, conçu pour corriger les hallucinations visuelles produites par les grands modèles de langage multimodaux lors de tâches de description d'images. Woodpecker peut extraire les concepts clés de la sortie du modèle, construire des questions de validation, utiliser un modèle visuel pour vérifier les connaissances et générer des affirmations visuelles, afin de produire une description corrigée. Les expériences montrent que Woodpecker peut améliorer significativement la capacité des différents modèles multimodaux à percevoir l'existence, la quantité et les attributs des objets, réduisant ainsi les problèmes d'hallucinations visuelles. Les chercheurs ont également mis à disposition une démo en ligne permettant aux utilisateurs de tester les effets de correction des hallucinations de Woodpecker. Ce framework offre une nouvelle approche pour améliorer la fiabilité des modèles multimodaux.