Qwen-VL : le modèle linguistique visuel d'Alibaba Cloud permet désormais la reconnaissance d'images !

AI前线

Publié leActualités IA · 2 minutes de lecture · Aug 25, 2023

Alibaba Cloud a publié en open source Qwen-VL, un modèle linguistique visuel, marquant ainsi la sortie d'un autre grand modèle open source après Qwen-7B (modèle généraliste) et Qwen-7B-Chat (modèle conversationnel) en août. Qwen-VL, compatible avec le chinois et l'anglais, permet de nombreuses applications telles que les Q&R basés sur la connaissance, la génération de légendes d'images et les Q&R sur images. Comparé à d'autres modèles, Qwen-VL peut effectuer une localisation en domaine ouvert en chinois, annotant précisément les zones de détection sur les images. Développé à partir de Qwen-7B, Qwen-VL intègre un encodeur visuel pour prendre en charge les entrées d'images. Lors de tests sur plusieurs tâches de langage visuel, Qwen-VL a obtenu les meilleurs résultats parmi les modèles équivalents. Qwen-VL est disponible en open source sur des plateformes telles que ModelScope. Les modèles multimodaux représentent une direction importante du développement des grands modèles, même s'ils restent confrontés à certains défis techniques.

Alibaba Cloud Tongyi Qianwen Qwen-VL Open Source Modèle linguistique visuel

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Journal de l'IA : Douyin lance un système de doublage automatique pour plusieurs personnes ; Adobe Firefly Image 5 se voit fortement amélioré ; Soul présente le modèle vocal SoulX-Podcast

Doubao lance un système IA de livres audio multi-voix automatisé, générant directement des dialogues à partir de textes avec 98% de précision, égalant les productions professionnelles. Une innovation majeure pour la création de contenu audio.....

Oct 29, 2025

100

Qualcomm entre dans le secteur des centres de données ! Présentation des puces AI200/AI250 visant NVIDIA, la valeur actions a bondi de 20 % en une seule journée

Qualcomm a lancé deux puces pour l'inférence AI en cloud, l'AI200 et l'AI250, qui seront commercialisées en 2026 et 2027. Cela marque une transition vers l'infrastructure complète d'IA, passant des puces pour terminaux à l'ensemble de l'infrastructure d'IA. Cette nouvelle a fait bondir les actions de plus de 20 % en une seule journée, soit la plus grande hausse depuis 2019. Contrairement à la stratégie globale de NVIDIA, Qualcomm se concentre sur le marché de l'inférence des grands modèles, mettant en avant son avantage en termes d'efficacité énergétique et de coût.

Oct 29, 2025

140

Tsinghua et Kuaishou lancent un nouveau modèle de diffusion SVG, l'efficacité d'entraînement augmente de 6200%

L'équipe de Tsinghua et Kuaishou Ke Ling a présenté le modèle SVG, qui remplace la VAE, résolvant ainsi le problème du mélange sémantique, l'efficacité d'entraînement a augmenté de 6200%, la vitesse de génération a augmenté de 3500%, marquant l'abandon progressif de la VAE dans le domaine de la génération d'images.

Oct 29, 2025

130

Le modèle vocal SoulX-Podcast est officiellement lancé : une génération de podcasts sans interruption pendant 90 minutes, une révolution du vocal IA en phase d'upgrade

SoulX-Podcast, modèle vocal dédié aux podcasts, génère une voix haute fidélité. Supporte longs dialogues multilingues et multiclocuteurs avec stabilité sur 90+ minutes.....

Oct 29, 2025

Adobe Firefly Image 5 : une mise à jour majeure : génération native de 4 millions de pixels, piste audio IA + modèles personnalisés, les créateurs entrent dans l'ère de la création artistique complète avec l'IA

Adobe lance le modèle de génération d'images IA professionnel Firefly Image5, marquant une transformation qualitative du ''suffisant'' vers le niveau professionnel. Les nouvelles fonctions comprennent une sortie native de 4 millions de pixels, un éditeur de commandes par couches, des modèles personnalisés de style artistique et une génération de musique d'accompagnement audio IA, fermant ainsi le cercle de la création artistique en IA pour les images, les vidéos et les audios, redéfinissant ainsi le flux de travail créatif.

Oct 29, 2025

150

IBM présente le modèle Granite 4.0 Nano, dépassant les limites des modèles d'IA de petite taille

IBM lance Granite 4.0 Nano, modèles IA de 3,5M à 1,5Md de paramètres. Fonctionnent localement sur PC ou navigateur, sans cloud, pour applications matérielles courantes ou périphériques.....

Oct 29, 2025

170

Microsoft et OpenAI redéfinissent leur alliance : le contrat de 25 milliards de dollars d'Azure permet à OpenAI d'acquérir une liberté cloud

Microsoft et OpenAI ont conclu un nouveau accord, selon lequel OpenAI achètera des services cloud Azure pour un montant de 25 milliards de dollars, établissant ainsi un record dans l'histoire de la technologie en matière d'achats cloud. La percée majeure réside dans la libération d'OpenAI de ses contraintes liées aux fournisseurs cloud : Microsoft renonce à son droit prioritaire en matière de cloud computing, offrant à OpenAI une autonomie technologique et un leadership stratégique, marquant ainsi le passage d'une dépendance exclusive vers une indépendance cloud.

Oct 29, 2025

170

NVIDIA ouvre le code d'OmniVinci, un modèle de compréhension multimodale, avec seulement 1/6 des données d'entraînement

NVIDIA présente le modèle de compréhension multimodale OmniVinci, qui dépasse les modèles de pointe de 19,05 points sur plusieurs tests de référence. Ce modèle utilise seulement 0,2 trillion de tokens d'entraînement, sa performance en termes de données est six fois supérieure à celle de ses concurrents. Il vise à réaliser une compréhension unifiée du visuel, de l'audio et du texte, et à faire progresser les capacités de cognition multimodale des machines.

Oct 28, 2025

L'équipe du modèle Ring-flash-linear-2.0-128K de la série Bailing d'Ant Group ouvre le code pour redéfinir l'efficacité du traitement des textes longs avec une architecture combinée de mémoire partagée et de MoE

Ant Group ouvre le code du modèle Bailing Ring-flash-linear-2.0-128K, spécialisé dans le traitement des textes très longs. Il utilise une architecture de mémoire partagée linéaire combinée à une architecture MoE dense, permettant d'atteindre des performances équivalentes à un modèle dense de 40 milliards de paramètres en activant uniquement 6,1 milliards de paramètres, offrant les meilleures performances dans les domaines de la génération de code et des agents intelligents, et résolvant efficacement les problèmes liés aux contextes longs.

Oct 28, 2025

100

Le modèle de génération vidéo Hailuo2.3 AI est disponible sur la plateforme Replicate, offrant des effets physiques réalistes et des effets visuels cinématographiques

Le modèle de génération vidéo Hailuo2.3 de la société MiniMax est disponible sur la plateforme Replicate, supportant la génération de vidéos de haute qualité à partir de textes et d'images. Ce modèle améliore l'efficacité de l'entraînement grâce à une architecture NCR, avec des simulations physiques réalistes et une capture d'actions fluide, poussant ainsi l'innovation des effets visuels dynamiques dans les domaines du cinéma, de la publicité, etc.

Oct 28, 2025

140

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Qwen-VL : le modèle linguistique visuel d'Alibaba Cloud permet désormais la reconnaissance d'images !

AI前线

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

Journal de l'IA : Douyin lance un système de doublage automatique pour plusieurs personnes ; Adobe Firefly Image 5 se voit fortement amélioré ; Soul présente le modèle vocal SoulX-Podcast

Qualcomm entre dans le secteur des centres de données ! Présentation des puces AI200/AI250 visant NVIDIA, la valeur actions a bondi de 20 % en une seule journée

Tsinghua et Kuaishou lancent un nouveau modèle de diffusion SVG, l'efficacité d'entraînement augmente de 6200%

Le modèle vocal SoulX-Podcast est officiellement lancé : une génération de podcasts sans interruption pendant 90 minutes, une révolution du vocal IA en phase d'upgrade

Adobe Firefly Image 5 : une mise à jour majeure : génération native de 4 millions de pixels, piste audio IA + modèles personnalisés, les créateurs entrent dans l'ère de la création artistique complète avec l'IA

IBM présente le modèle Granite 4.0 Nano, dépassant les limites des modèles d'IA de petite taille

Microsoft et OpenAI redéfinissent leur alliance : le contrat de 25 milliards de dollars d'Azure permet à OpenAI d'acquérir une liberté cloud

NVIDIA ouvre le code d'OmniVinci, un modèle de compréhension multimodale, avec seulement 1/6 des données d'entraînement

L'équipe du modèle Ring-flash-linear-2.0-128K de la série Bailing d'Ant Group ouvre le code pour redéfinir l'efficacité du traitement des textes longs avec une architecture combinée de mémoire partagée et de MoE

Le modèle de génération vidéo Hailuo2.3 AI est disponible sur la plateforme Replicate, offrant des effets physiques réalistes et des effets visuels cinématographiques

Recommandations d'actualités IA connexes

Journal de l'IA : Douyin lance un système de doublage automatique pour plusieurs personnes ; Adobe Firefly Image 5 se voit fortement amélioré ; Soul présente le modèle vocal SoulX-Podcast

Qualcomm entre dans le secteur des centres de données ! Présentation des puces AI200/AI250 visant NVIDIA, la valeur actions a bondi de 20 % en une seule journée

Tsinghua et Kuaishou lancent un nouveau modèle de diffusion SVG, l'efficacité d'entraînement augmente de 6200%

Le modèle vocal SoulX-Podcast est officiellement lancé : une génération de podcasts sans interruption pendant 90 minutes, une révolution du vocal IA en phase d'upgrade

Adobe Firefly Image 5 : une mise à jour majeure : génération native de 4 millions de pixels, piste audio IA + modèles personnalisés, les créateurs entrent dans l'ère de la création artistique complète avec l'IA

IBM présente le modèle Granite 4.0 Nano, dépassant les limites des modèles d'IA de petite taille

Microsoft et OpenAI redéfinissent leur alliance : le contrat de 25 milliards de dollars d'Azure permet à OpenAI d'acquérir une liberté cloud

NVIDIA ouvre le code d'OmniVinci, un modèle de compréhension multimodale, avec seulement 1/6 des données d'entraînement

L'équipe du modèle Ring-flash-linear-2.0-128K de la série Bailing d'Ant Group ouvre le code pour redéfinir l'efficacité du traitement des textes longs avec une architecture combinée de mémoire partagée et de MoE

Le modèle de génération vidéo Hailuo2.3 AI est disponible sur la plateforme Replicate, offrant des effets physiques réalistes et des effets visuels cinématographiques

GEO Services