MathVerse : une nouvelle référence pour évaluer les capacités de mathématiques visuelles des grands modèles linguistiques multimodaux

站长之家

Publié leActualités IA · 1 minutes de lecture · Mar 26, 2024

Nouveau benchmark MathVerse pour les modèles linguistiques multimodaux

Le site web "站长之家" a rapporté l'arrivée d'un nouveau benchmark nommé MathVerse, conçu pour évaluer les performances des grands modèles linguistiques multimodaux (MLLMs) sur des problèmes mathématiques visuels. L'étude a révélé que la plupart des modèles dépendent fortement des entrées visuelles, mais que GPT-4V excelle tant au niveau textuel que visuel.

Le lancement de ce benchmark offre de nouvelles perspectives pour le développement futur des MLLMs.

LLM multimodaux Mathématiques visuelles MATHVERSE

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Briser les normes, ModulTech remporte un financement de plusieurs dizaines de millions d'euros et ouvre une nouvelle ère pour les capteurs tactiles multimodaux !

Jul 8, 2025

Claude bientôt disponible avec le modèle Claude Neptune v3, très fort en mathématiques

Anthropic teste 'Claude Neptune v3', un nouveau modèle d'IA en phase d'évaluation de sécurité. Performances en mathématiques remarquables, potentiellement comparable aux meilleurs modèles. Deux hypothèses: version pré-Claude4.5 ou avancée majeure. Stratégie pour devancer la concurrence.....

Jul 7, 2025

100

Découverte de la compatibilité de l'apprentissage par renforcement des LLM : l'Université de Shanghai Jiao Tong révèle les différences entre Llama et Qwen, et présente OctoThinker

Les grands modèles linguistiques (LLM) ont obtenu des progrès significatifs dans les tâches de raisonnement complexes en combinant les instructions de tâche et l'apprentissage par renforcement à grande échelle (RL), comme le modèle Deepseek-R1-Zero qui applique directement l'apprentissage par renforcement au modèle de base, montrant une grande capacité de raisonnement. Cependant, ce succès est difficile à reproduire dans différentes séries de modèles de base, notamment dans la série Llama. Cela soulève une question centrale : quels facteurs entraînent une incohérence dans les performances des modèles de base lors de l'apprentissage par renforcement ? L'apprentissage par renforcement dans

Jul 3, 2025

GLM-4.1V-Thinking de Zhipu AI : Une nouvelle avancée dans les modèles de raisonnement multimodaux

Zhipu AI dévoile officiellement sa dernière génération de modèle visuel général GLM-4.1V-Thinking, basé sur l'architecture GLM-4V, ajoutant une mécanique de raisonnement par chaîne de pensée, qui améliore significativement les capacités des tâches cognitives complexes. Ce modèle prend en charge plusieurs types d'entrées multimodales, comme les images, les vidéos et les documents, et excelle dans la compréhension de longues séquences vidéo, les questions-réponses visuelles, la résolution de problèmes scientifiques, la reconnaissance de texte, l'interprétation de documents, le Grounding, l'Agent GUI et la génération de code, répondant ainsi à des besoins d'applications variés dans divers secteurs.

Jul 2, 2025

Le Tech Festival des Jeunes Résistants de Taotian Group 4.0 est officiellement lancé : le grand modèle de recommandation à 10 milliards de paramètres RecGPT est désormais en ligne

Hier, le groupe Taotian a annoncé lors de son événement « Tech Festival des Jeunes Résistants 4.0 » que son modèle de recommandation à 10 milliards de paramètres, RecGPT, développé en interne, était désormais en ligne. Ce progrès innovant va entièrement améliorer le flux d'informations « Je vous aime » sur la page d'accueil de l'application Taobao. Grâce à la technologie AIGR (recommandation générative), les utilisateurs bénéficieront d'une expérience de recommandation plus précise et personnalisée. Le lancement de RecGPT marque une étape importante pour Taobao dans le domaine de la recommandation en e-commerce. Les données de test montrent que le flux d'informations recommandé par le modèle RecGPT se distingue fortement, avec un taux de clics élevé.

Jul 1, 2025

De la génération de texte à l'édition d'instructions : OmniGen2 réinvente les scénarios d'application des modèles multimodaux open source

Jun 24, 2025

Youdao lance le modèle Ziyue 3 pour résoudre facilement des problèmes mathématiques et promouvoir l'égalité éducative !

Le 23 juin, NetEase Youdao a officiellement lancé et rendu open source sa dernière série de grands modèles « Ziyue 3 », dont le nom anglais est Confucius3-Math. Ce modèle dédié à l'enseignement des mathématiques est capable de fonctionner efficacement sur des GPU grand public, devenant ainsi le premier outil d'IA éducative à coût faible et haute performance en Chine. Dans une série de tâches de raisonnement mathématique, « Ziyue 3 » a montré des performances exceptionnelles supérieures à celles de nombreux modèles généraux à grande échelle. Le modèle mathématique « Ziyue 3 » grâce à un apprentissage renforcé à grande échelle et une série d'algorithmes innovants, s'est distingué

Jun 23, 2025

1.3k

Baidu lance le premier studio interactif avec des doubles numériques, avec une avancée technologique dans les modèles multimodaux pilotés par Wenxin Yizhuan 4.5T

Jun 18, 2025

Analyse approfondie de LLM SEO Monitor : un outil essentiel pour l'optimisation de recherche IA

Analyse complète des fonctionnalités et de l'expérience d'utilisation de l'outil LLM SEO Monitor, en apprenant à augmenter la visibilité de votre marque sur des moteurs de recherche IA comme ChatGPT ou Gemini, et à tirer parti de la valeur commerciale du référencement IA.

Jun 17, 2025

Kimi-Dev-72B : un modèle LLM de codage open source pour résoudre les problèmes d'ingénierie logicielle

Jun 17, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief