Récemment, des chercheurs de l'Université des sciences et technologies de Chine (USTC) et des laboratoires Tencent Youtu ont proposé le framework Woodpecker, conçu pour corriger les hallucinations visuelles produites par les grands modèles de langage multimodaux lors de tâches de description d'images. Woodpecker peut extraire les concepts clés de la sortie du modèle, construire des questions de validation, utiliser un modèle visuel pour vérifier les connaissances et générer des affirmations visuelles, afin de produire une description corrigée. Les expériences montrent que Woodpecker peut améliorer significativement la capacité des différents modèles multimodaux à percevoir l'existence, la quantité et les attributs des objets, réduisant ainsi les problèmes d'hallucinations visuelles. Les chercheurs ont également mis à disposition une démo en ligne permettant aux utilisateurs de tester les effets de correction des hallucinations de Woodpecker. Ce framework offre une nouvelle approche pour améliorer la fiabilité des modèles multimodaux.
Le framework Woodpecker corrige les hallucinations visuelles des modèles multimodaux

我爱计算机视觉
Cet article provient d'AIbase Daily
Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.