Le 11 août, Zhipu Technologies a officiellement lancé son nouveau modèle de compréhension visuelle — GLM-4.5V. Ce modèle a été entraîné sur la nouvelle génération de modèle texte GLM-4.5-Air, et il continue la ligne technique du modèle précédent de raisonnement visuel GLM-4.1V-Thinking. Il possède impressionnamment 106 milliards de paramètres et 12 milliards de paramètres activés. Il convient de noter que le GLM-4.5V dispose également d'une fonction « mode réflexion », permettant aux utilisateurs de choisir s'ils souhaitent activer ou non ce mode, pour mieux gérer les tâches.
Cette capacité visuelle est remarquable : elle peut facilement distinguer les ailes de poulet de McDonald's et de KFC, en analysant en profondeur l'apparence, la couleur et la texture. De plus, le GLM-4.5V peut participer à des défis de détection de lieux sur des images, et a même obtenu d'excellents résultats lors de compétitions, dépassant 99 % des participants humains et se classant 66e. Zhipu a également montré une performance exceptionnelle de ce modèle sur 42 tests standards, dépassant largement les autres modèles de taille similaire dans la plupart des tests.
Aujourd'hui, le GLM-4.5V est disponible sur des plateformes open source telles qu'Hugging Face, Moba et GitHub, où les utilisateurs peuvent le télécharger gratuitement. Une version quantifiée FP8 est également proposée. Pour améliorer l'expérience avec ce modèle, Zhipu a lancé une application de bureau, qui prend en charge la capture d'écran en temps réel et l'enregistrement d'écran, aidant les utilisateurs à accomplir diverses tâches de raisonnement visuel, y compris l'aide au code et l'interprétation de documents.
Dans les tests pratiques, le GLM-4.5V a démontré une excellente capacité à inférer la localisation d'une image téléchargée, bien qu'il puisse parfois présenter de petites erreurs, son processus de raisonnement reste très riche. Lorsqu'il traite le contenu des pages web, il peut générer des pages similaires à partir de captures d'écran, montrant ainsi une forte capacité de reproduction.
Non seulement le GLM-4.5V se distingue dans le domaine de la compréhension visuelle, mais il montre aussi un grand potentiel dans les scénarios d'application Agent. Avec le développement continu de cette technologie, nous avons toutes les raisons d'espérer qu'elle apporte plus de commodité à la vie des gens à l'avenir.