Le framework Woodpecker corrige les hallucinations visuelles des modèles multimodaux

我爱计算机视觉

Publié leActualités IA · 2 minutes de lecture · Oct 27, 2023

Récemment, des chercheurs de l'Université des sciences et technologies de Chine (USTC) et des laboratoires Tencent Youtu ont proposé le framework Woodpecker, conçu pour corriger les hallucinations visuelles produites par les grands modèles de langage multimodaux lors de tâches de description d'images. Woodpecker peut extraire les concepts clés de la sortie du modèle, construire des questions de validation, utiliser un modèle visuel pour vérifier les connaissances et générer des affirmations visuelles, afin de produire une description corrigée. Les expériences montrent que Woodpecker peut améliorer significativement la capacité des différents modèles multimodaux à percevoir l'existence, la quantité et les attributs des objets, réduisant ainsi les problèmes d'hallucinations visuelles. Les chercheurs ont également mis à disposition une démo en ligne permettant aux utilisateurs de tester les effets de correction des hallucinations de Woodpecker. Ce framework offre une nouvelle approche pour améliorer la fiabilité des modèles multimodaux.

Lancement sur ModelScope d'Alibaba Cloud des deux nouveaux modèles multimodaux open source de Step-by-Step

Les regards des développeurs du monde entier se tournent à nouveau vers la Chine ! Lors de la Conférence mondiale des développeurs (GDC), très attendue, la communauté ModelScope d'Alibaba Cloud a annoncé le lancement de deux nouveaux modèles multimodaux open source de Step-by-Step : Step-Video-T2V, le modèle de génération vidéo open source au plus grand nombre de paramètres au monde, et Step-Audio, le premier modèle d'interaction vocale open source de niveau production du secteur. Cette annonce a immédiatement suscité l'enthousiasme de la communauté open source mondiale de l'IA, soulignant une fois de plus la forte capacité d'innovation de la Chine dans le domaine de l'intelligence artificielle. En tant que plus grand acteur chinois de l'IA...

Hu Han, ancien expert en vision chez Microsoft, rejoint Tencent pour diriger la recherche sur les grands modèles multimodaux

Récemment, Hu Han, ancien chercheur principal du groupe de calcul visuel du Microsoft Research Asia, a officiellement rejoint Tencent pour diriger la recherche et le développement du grand modèle multi-modal HunYuan. Cette nouvelle a suscité un vif intérêt dans l'industrie, l'arrivée de Hu Han étant considérée comme une injection de dynamisme pour les activités d'intelligence artificielle de Tencent. Hu Han a obtenu son diplôme de Bachelor à l'Université Tsinghua en 2008 et son doctorat en 2014 sous la supervision du professeur Zhou Jie. Sa thèse de doctorat a reçu le prix de la meilleure thèse de doctorat de la Chinese Association for Artificial Intelligence en 2016, témoignant de ses compétences académiques. En 2012, Hu Han...

Recherche prospective de l'équipe de Fei-Fei Li : les modèles IA multimodaux montrent une intelligence spatiale naissante

Fei-Fei Li, professeure à l'université de Stanford et surnommée la « marraine de l'IA », et son équipe ont récemment publié une étude sur « l'intelligence spatiale » des grands modèles multimodaux. Cette étude révèle que ces modèles possèdent déjà des capacités préliminaires en matière de mémorisation et de rappel spatial, et montrent un potentiel pour former des modèles du monde partiels. L'équipe de recherche a développé VSI-Bench, un outil d'évaluation des capacités d'intelligence visuo-spatiale, contenant plus de 5000 paires de questions-réponses de haute qualité basées sur 288 vidéos réelles. Les vidéos testées couvrent les espaces de vie, les lieux professionnels et les environnements industriels, et concernent plusieurs emplacements géographiques.

Les grands modèles multimodaux révolutionnent les applications : Jieyue Xingchen lève plusieurs centaines de millions de dollars

Selon les informations de Intelligent Emergence, Jieyue Xingchen, une licorne chinoise spécialisée dans les grands modèles, a récemment bouclé un tour de financement série B de plusieurs centaines de millions de dollars. Parmi les principaux investisseurs figurent Shanghai State-owned Capital Investment Co., Ltd. et ses fonds affiliés, ainsi que des investisseurs stratégiques et financiers tels que Tencent Investment, Wuyuan Capital et Qiming Venture Partners. Ces fonds seront principalement utilisés pour la recherche et le développement de modèles fondamentaux, afin d'améliorer davantage les capacités multimodales et de raisonnement complexe, et d'étendre les applications grand public. Figurant parmi les six principaux acteurs chinois des grands modèles, Jieyue Xingchen se distingue par la solidité de sa technologie et son efficacité de production. Sa série de modèles Step auto-développés couvre le langage et l'image.

Percée dans les modèles multimodaux : l’équipe de Fei-Fei Li unifie les actions et le langage, dépassant la simple compréhension des instructions pour décrypter les émotions implicites

L’équipe de Fei-Fei Li a présenté un nouveau modèle multi-modal capable de comprendre et de générer des actions humaines, et qui, grâce à l’intégration d’un modèle linguistique, permet un traitement unifié du langage oral et non verbal. Cette avancée majeure permet aux machines non seulement de comprendre les instructions humaines, mais aussi de déchiffrer les émotions sous-jacentes aux actions, pour une interaction homme-machine plus naturelle. Au cœur du modèle se trouve un cadre de modèle linguistique multi-modal, capable de recevoir des données d’entrée sous diverses formes : audio, actions et texte, et de produire les données modales nécessaires. Associé à une stratégie de pré-entraînement génératif, ce modèle...

Lancement d'une section AIGC sur la communauté ModelScope d'Alibaba Cloud : 157 modèles multimodaux mis en ligne

Le 21 septembre 2024, lors de la conférence Cloud Computing à Hangzhou, Alibaba a annoncé plusieurs innovations technologiques et évolutions commerciales. Parmi celles-ci, le lancement officiel d'une section AIGC sur la communauté ModelScope, visant à fournir aux développeurs une plateforme complète de création et de développement d'IA. Cette plateforme offre actuellement l'accès gratuit à tous les modules fonctionnels et à la puissance de calcul GPU. Elle met en ligne, dans un premier temps, 157 modèles multimodaux sélectionnés, incluant des modèles populaires de la communauté et des modèles LoRa stylisés contribués par des designers.

Baidu lance PaddleMIX 2.0, une boîte à outils de développement de modèles multimodaux

PaddleMIX 2.0 est une boîte à outils de développement de modèles multimodaux lancée par Baidu, visant à simplifier le développement d'applications multimodales et à prendre en charge des scénarios tels que la conduite autonome, les soins de santé intelligents et les moteurs de recherche. Ses points forts clés incluent : 1. **Une riche bibliothèque de modèles :** couvrant les images, le texte, la vidéo et l'audio, avec l'ajout de modèles de la série LLaVA, offrant un support technologique de pointe. 2. **Une expérience de développement complète :** équipé de DataCopilot et de modules automatiques, il simplifie le processus d'entraînement des modèles multimodaux. 3. **Une capacité d'entraînement haute performance**

NetEase Fuxi lance la marque de robots « Lingdong » et dévoile le modèle multimodal « Yisheng Zhuxiang »

La marque « Lingdong » a été soigneusement conçue par NetEase Fuxi en s'appuyant sur ses modèles industriels de grande envergure développés en interne et sur le concept technologique AOP (perception et opération par intelligence artificielle). Ses deux produits phares, un robot excavateur et un robot chargeur, sont déjà déployés dans plus de 50 projets importants au niveau provincial, servant des environnements d'application variés tels que les mines, les ports, les centrales à béton et les écoles.

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu