Avec le développement continu de l'intelligence artificielle, la fusion des données visuelles et textuelles représente un défi complexe. Les modèles traditionnels ont souvent du mal à analyser avec précision les documents visuels structurés tels que les tableaux, les graphiques, les infographies et les schémas. Cette limitation affecte l'extraction et la compréhension automatiques du contenu, impactant ainsi les applications telles que l'analyse de données, la recherche d'informations et la prise de décision. Pour répondre à ce besoin, IBM a récemment lancé Granite-Vision-3.1-2B, un petit modèle de langage visuel conçu pour la compréhension de documents.
Granite-Vision-3.1-2B est capable d'extraire du contenu à partir de divers formats visuels, notamment les tableaux, les graphiques et les schémas. Ce modèle, entraîné sur un ensemble de données soigneusement sélectionné provenant de sources publiques et synthétiques, peut traiter de nombreuses tâches liées aux documents. Version améliorée du grand modèle de langage Granite, il intègre les modalités image et texte, améliorant ainsi sa capacité d'interprétation et le rendant adapté à de multiples scénarios d'application.
Ce modèle est composé de trois composants clés : un encodeur visuel utilisant SigLIP pour traiter et encoder efficacement les données visuelles ; un connecteur visuel-langage, un perceptron multicouche à deux couches (MLP) avec une fonction d'activation GELU, destiné à connecter les informations visuelles et textuelles ; et enfin, un grand modèle de langage basé sur Granite-3.1-2B-Instruct, doté d'une longueur de contexte de 128 k, capable de gérer des entrées complexes et volumineuses.
Durant son entraînement, Granite-Vision-3.1-2B s'est inspiré de LlaVA et a intégré les caractéristiques des encodeurs multicouches, ainsi qu'une résolution de grille plus dense dans AnyRes. Ces améliorations ont renforcé la capacité du modèle à comprendre des contenus visuels détaillés, lui permettant d'exécuter plus précisément les tâches liées aux documents visuels, telles que l'analyse de tableaux et de graphiques, la reconnaissance optique de caractères (OCR) et la réponse à des requêtes basées sur des documents.
Les résultats d'évaluation montrent que Granite-Vision-3.1-2B excelle dans plusieurs tests de référence, notamment en matière de compréhension de documents. Dans le test de référence ChartQA, le modèle a obtenu un score de 0,86, surpassant d'autres modèles dont les paramètres se situent dans la fourchette 1B-4B. Dans le test de référence TextVQA, il a obtenu un score de 0,76, démontrant sa puissante capacité à analyser et à répondre aux informations textuelles intégrées aux images. Ces résultats soulignent le potentiel de ce modèle pour le traitement précis des données visuelles et textuelles dans les applications d'entreprise.
Granite-Vision-3.1-2B d'IBM représente un progrès important dans le domaine des modèles de langage visuel, offrant une solution équilibrée pour la compréhension des documents visuels. Son architecture et sa méthode d'entraînement lui permettent d'analyser et de traiter efficacement des données visuelles et textuelles complexes. Grâce à sa prise en charge native des transformateurs et des vLLM, ce modèle peut s'adapter à de nombreux cas d'utilisation et être déployé dans des environnements cloud tels que Colab T4, offrant ainsi aux chercheurs et aux professionnels un outil pratique pour améliorer les capacités de traitement de documents pilotées par l'IA.
Modèle : https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview
Points clés :
🌟 Granite-Vision-3.1-2B est un petit modèle de langage visuel conçu par IBM pour la compréhension de documents, capable de traiter l'extraction de contenu à partir de divers formats visuels.
📊 Le modèle est composé de trois parties : un encodeur visuel, un connecteur visuel-langage et un grand modèle de langage, améliorant ainsi la compréhension des entrées complexes.
🏆 Il excelle dans plusieurs tests de référence, notamment dans le domaine de la compréhension de documents, démontrant un fort potentiel pour les applications d'entreprise.