Défi à GPT-4V ! LLaVA-1.5, un modèle multimodal open source de 13 milliards de paramètres développé par un ancien élève de l'Université de Zhejiang, entraîné en une journée sur 8 A100

新智元

Publié leActualités IA · 2 minutes de lecture · Oct 8, 2023

145

Des chercheurs de l'Université du Wisconsin-Madison, de Microsoft Research et de l'Université de Columbia ont publié en open source LLaVA-1.5, un grand modèle multimodal qui a démontré des performances exceptionnelles dans 11 benchmarks, notamment la question-réponse visuelle et la génération de légendes d'images. LLaVA-1.5 n'a nécessité que 8 GPU A100 et un jour d'entraînement pour atteindre ces performances remarquables. Les chercheurs ont proposé une méthode consistant à ajouter des invites de format de sortie lors du réglage fin, permettant au modèle de mieux s'adapter à différentes tâches. La puissante capacité de compréhension multimodale de LLaVA-1.5 remet en question la position de GPT-4V.

LLaVA-1.5 Modèle multimodal GPT-4V

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Bulletin quotidien sur l'IA : l'IDE AI Tongyi Lingma d'Alibaba Cloud est lancé ; le modèle multimodal multiplateforme Xiaomi MiMo-VL de Xiaomi est open source ; Black Forest Labs présente FLUX.1Kontext

May 30, 2025

Modèle multimodal XLMiMo-VL de Xiaomi est open source

Récemment, le modèle multimodal MiMo-VL développé par l'entreprise Xiaomi a pris la relève du modèle MiMo-7B et s'est révélé extrêmement performant dans plusieurs domaines. Ce modèle excelle en compréhension générale et en raisonnement sur des tâches telles que les questions-réponses liées à des images, vidéos et langage, surpassant largement les modèles similaires de taille comparable comme Qwen2.5-VL-7B. De plus, sa performance dans la tâche de localisation GUI est comparable à celle des modèles spécifiques, préparant ainsi l'avènement de l'ère des agents.

May 30, 2025

Le modèle multimodal multicadres de Yuncong Technology reçoit une reconnaissance mondiale et domine le classement OpenCompass

May 30, 2025

Ant Group ouvre les sources de Ming-lite-omni : le premier modèle multimodal open source comparable à GPT-4o

May 29, 2025

Évaluation des capacités de raisonnement visuel du modèle multimodal O3 : seuls 25,8 % des scores obtenus

Récemment, une nouvelle base d'évaluation - RBench-V - a été publiée conjointement par des équipes de recherche de l'Université Tsinghua, Mixtape de Tencent, l'Université de Stanford et l'Université Carnegie Mellon. Cette base vise à tester spécifiquement les capacités de raisonnement visuel des modèles multimodaux. Son lancement est destiné à combler le manque présent dans les systèmes d'évaluation actuels en matière de capacité de sortie visuelle des modèles, afin d'avoir une compréhension plus complète de leurs performances respectives. Le benchmark RBench-V contient 803 questions couvrant plusieurs domaines, tels que la géométrie et la théorie des graphes, la mécanique et l'électromagnétisme, la reconnaissance de plusieurs cibles et la planification de trajectoire.

May 28, 2025

Journal quotidien IA : l'application intelligente TianGong de Kunlun WeiWei est en ligne ; Google publie de nouveaux modèles Gemma avec trois variantes importantes ; ByteDance lance un modèle multimodal open source BAGE

Bienvenue dans la rubrique 【Journal quotidien IA】 ! Ici se trouve votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les actualités du domaine IA, concentrées sur les développeurs et vous aidant à comprendre les tendances technologiques et les nouvelles applications innovantes d'IA. Produits IA nouveaux à découvrir : https://top.aibase.com/1、Première application intelligente de type Office au monde ! L'application intelligente TianGong de Kunlun WeiWei est en ligne

May 26, 2025

100

ByteDance lance le modèle multimodal open source BAGE, de la génération d'images à la modélisation du monde

ByteDance a récemment lancé son tout dernier modèle fondamental multimodal open source - BAGEL (Big Advanced Generalized Embodied Learner), avec une taille de 7 milliards de paramètres efficaces, ouvrant une nouvelle phase pour les modèles IA multimodaux. BAGEL se distingue particulièrement dans des tâches clés telles que la compréhension, la génération et l'édition d'images, surpassant déjà plusieurs modèles VLM open source actuels dans divers tests standard, comme Qwen2.5-VL et InternVL-2.5.

May 26, 2025

Journal quotidien IA : Anthropic présente le plus puissant modèle d'IA de codage Claude4 ; Apple prévoit de lancer des lunettes intelligentes IA ; Un grand modèle multimodal ChatTS est lancé conjointement par ByteDance et l'Université Tsinghua

May 23, 2025

Seulement 20 milliards de paramètres ! ByteDance présente Seed1.5-VL, un modèle multimodal réalisant 38 performances SOTA

May 14, 2025

ByteDance lance Vidi, un modèle multimodal révolutionnant la compréhension et l'édition de vidéos longues

ByteDance introduit Vidi, un modèle multimodal de pointe conçu pour la compréhension et l'édition de vidéos longues. Ce modèle permet une recherche et une manipulation efficaces des séquences vidéo, ouvrant de nouvelles perspectives dans le domaine de l'édition vidéo.

Apr 23, 2025

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

Défi à GPT-4V ! LLaVA-1.5, un modèle multimodal open source de 13 milliards de paramètres développé par un ancien élève de l'Université de Zhejiang, entraîné en une journée sur 8 A100

新智元

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

Bulletin quotidien sur l'IA : l'IDE AI Tongyi Lingma d'Alibaba Cloud est lancé ; le modèle multimodal multiplateforme Xiaomi MiMo-VL de Xiaomi est open source ; Black Forest Labs présente FLUX.1Kontext

Modèle multimodal XLMiMo-VL de Xiaomi est open source

Le modèle multimodal multicadres de Yuncong Technology reçoit une reconnaissance mondiale et domine le classement OpenCompass

Ant Group ouvre les sources de Ming-lite-omni : le premier modèle multimodal open source comparable à GPT-4o

Évaluation des capacités de raisonnement visuel du modèle multimodal O3 : seuls 25,8 % des scores obtenus

Journal quotidien IA : l'application intelligente TianGong de Kunlun WeiWei est en ligne ; Google publie de nouveaux modèles Gemma avec trois variantes importantes ; ByteDance lance un modèle multimodal open source BAGE

ByteDance lance le modèle multimodal open source BAGE, de la génération d'images à la modélisation du monde

Journal quotidien IA : Anthropic présente le plus puissant modèle d'IA de codage Claude4 ; Apple prévoit de lancer des lunettes intelligentes IA ; Un grand modèle multimodal ChatTS est lancé conjointement par ByteDance et l'Université Tsinghua

Seulement 20 milliards de paramètres ! ByteDance présente Seed1.5-VL, un modèle multimodal réalisant 38 performances SOTA

ByteDance lance Vidi, un modèle multimodal révolutionnant la compréhension et l'édition de vidéos longues