L'équipe OpenBMB a récemment annoncé la sortie open source de la nouvelle génération de modèle multimodal MiniCPM-V4.0. Grâce à sa conception légère et à ses performances exceptionnelles, ce modèle est surnommé « le GPT-4V sur téléphone », et il promet des ruptures révolutionnaires pour les applications d'IA sur les appareils mobiles.

Le cœur de MiniCPM-V4.0 réside dans sa conception ingénieuse. Il repose sur SigLIP2-400M et MiniCPM4-3B, avec un nombre de paramètres limité à 4,1 milliards, mais il démontre une grande capacité dans la compréhension d'images, de plusieurs images et de vidéos. Cela lui permet non seulement de traiter facilement une seule image, mais aussi de comprendre des contenus complexes associés à plusieurs images et des extraits de vidéos, offrant ainsi une expérience d'interaction plus intelligente aux utilisateurs.

Malgré son petit nombre de paramètres, les performances de MiniCPM-V4.0 sont impressionnantes. Sur huit benchmarks majeurs officiels d'OpenCompass, ce modèle obtient en moyenne un score de 69,0, surpassant plusieurs concurrents comme GPT-4.1-mini et Qwen2.5-VL-3B. Ces résultats prouvent sa forte capacité en compréhension visuelle, notamment en termes de précision et d'analyse approfondie dans les scénarios complexes.

Un autre point fort de MiniCPM-V4.0 est son optimisation élevée pour les appareils mobiles. Les tests sur le dernier iPhone16Pro Max montrent que le délai de réponse initiale est inférieur à 2 secondes, la vitesse de décodage dépasse 17 tokens par seconde, et l'appareil reste efficacement contrôlé en termes de température pendant l'exécution, assurant ainsi une expérience utilisateur fluide et stable. De plus, il peut gérer des demandes simultanées, ce qui le rend particulièrement adapté pour des applications sur les appareils de bord tels que les téléphones portables et les tablettes.

Pour réduire la barrière d'utilisation, l'équipe OpenBMB propose un écosystème riche. MiniCPM-V4.0 est compatible avec des cadres majeurs tels que llama.cpp, Ollama et vllm_project, offrant aux développeurs des choix flexibles pour le déploiement. L'équipe a également développé spécifiquement une application iOS, permettant d'exécuter directement le modèle sur iPhone et iPad, et a publié un Cookbook détaillé, comprenant des tutoriels complets et des exemples de code.

La sortie de MiniCPM-V4.0 ouvre de nouvelles perspectives pour l'application de la technologie multimodale. Ses principales applications incluent :

  • Analyse d'images et dialogues multiples : Les utilisateurs peuvent charger des images pour que le modèle analyse leur contenu, puis poursuive un dialogue continu.

  • Compréhension des vidéos : Il peut analyser le contenu des vidéos et fournir des solutions pour les scénarios nécessitant le traitement d'informations vidéo.

  • OCR et raisonnement mathématique : Le modèle est capable de reconnaître du texte dans les images et de résoudre des problèmes mathématiques, augmentant ainsi son utilité dans le travail et l'apprentissage pratiques.

Le lancement open source de MiniCPM-V4.0 témoigne des compétences remarquables de l'équipe chinoise en matière de recherche de modèles légers, tout en offrant aux développeurs mondiaux un outil puissant pour explorer la technologie multimodale sur mobile, marquant ainsi un pas solide vers la démocratisation de l'IA.