L'initiative open source d'Alibaba, le projet MNN (Mobile Neural Network), a publié une nouvelle version de son application multimodale multi-modèle pour appareils mobiles, MnnLlmApp, qui ajoute un support pour les modèles Qwen-2.5-Omni-3B et 7B. Cette application entièrement open source, conçue pour fonctionner localement sur des appareils mobiles, prend en charge diverses tâches multimodales telles que la génération de texte à partir de texte, d'image à partir de texte, d'audio à partir de texte, ainsi que la génération d'image à partir de texte, avec des performances efficaces et une faible consommation de ressources, attirant ainsi l'attention des développeurs. L'observateur d'AIbase a noté que cette mise à jour de MNN a encore renforcé la popularité des IA multimodales sur les appareils mobiles.
Adresse du projet :
https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md
Points forts clés : Une capacité multimodale largement améliorée
La nouvelle version de MnnLlmApp intègre les modèles Qwen-2.5-Omni-3B et 7B, exploitant l'architecture Thinker-Talker de l'équipe Qwen d'AliCloud, permettant de traiter de manière combinée du texte, d'images, d'audio et de vidéo. Selon l'observation d'AIbase, l'application prend en charge les fonctions suivantes :
Texte à texte : Générer des conversations de haute qualité, des rapports ou du code, équivalent aux performances des modèles cloud.
Image en texte : Identifier le texte dans une image ou décrire le contenu scénique, applicable au balayage de documents et aux questions-réponses visuelles.
Audio en texte : Transcrire efficacement la parole, prenant en charge la reconnaissance vocale dans plusieurs langues.
Texte en image : Générer des images de haute qualité via des modèles de diffusion, répondant aux besoins de conception créative.
Les retours des réseaux sociaux montrent que les développeurs sont particulièrement satisfaits de la performance de Qwen-2.5-Omni-3B exécuté sur une carte graphique de 24 Go, conservant plus de 90 % des performances multimodales du modèle 7B lors des tests OmniBench tout en réduisant la consommation mémoire de plus de 50 % (de 60,2 Go à 28,2 Go).
Avantages techniques : Inférence locale et optimisation extrême
Le cadre MNN est connu pour sa légèreté et ses performances élevées, optimisé spécialement pour les appareils mobiles et les périphériques marginaux. L'équipe de rédaction d'AIbase a remarqué que la nouvelle version de MnnLlmApp se distingue par des performances exceptionnelles en inférence CPU, préchargeant 8,6 fois plus rapidement que llama.cpp et décodant 2,3 fois plus vite. L'application fonctionne complètement localement sans connexion internet, garantissant la confidentialité des données sans les envoyer vers des serveurs externes. Elle supporte une gamme étendue de modèles, notamment Qwen, Gemma, Llama et Baichuan, et les développeurs peuvent télécharger et construire directement l'application depuis GitHub. De plus, MNN fournit un support FlashAttention-2, améliorant encore l'efficacité du traitement de longues séquences contextuelles.
Applications : De la phase de développement à la production
La capacité multimodale de MnnLlmApp lui permet de montrer son potentiel dans divers scénarios :
Éducation et bureau : Scanner des documents via la fonction image en texte ou transcrire les comptes rendus des réunions grâce à l'audio en texte.
Conception créative : Utiliser la génération d'image à partir de texte pour créer des matériaux publicitaires ou œuvres artistiques.
Assistant intelligent : Développer des applications d'interaction vocale localisées, comme des assistants de navigation hors ligne ou des assistants client.
Développement pour développeurs : Le code source ouvert et la documentation détaillée fournissent des exemples de référence pour le développement de modèles de grande taille sur appareils mobiles.
AIbase analyse que l'aspect open source d'Alibaba et le soutien à Qwen-2.5-Omni en font une plateforme idéale pour que les développeurs explorent l'IA multimodale sur appareils mobiles. Sur les réseaux sociaux, les développeurs soulignent que bien que la vitesse d'inférence de MnnLlmApp (préremplissage de 28 tokens/s pour Llama3.18B) ne soit pas au niveau de pointes, son intégration multimodale et son facilité d'utilisation suffisent pour répondre aux besoins des prototypes de développement.
Contexte industriel : L'emballement pour les IA open source sur mobile
La mise à jour de MNN survient alors que la concurrence dans l'IA mobile se durcit. Récemment, DeepSeek et Baichuan-Omni ont également lancé des solutions open source multimodales, mettant en avant le déploiement local et les coûts réduits. Cependant, MNN bénéficie de l'appui de l'écosystème Alibaba et de ses optimisations matérielles (comme l'adaptation approfondie aux appareils Android) ce qui lui confère un avantage en termes de performances et de compatibilité. AIbase note que Alibaba Cloud a déjà open-sourcé plus de 200 modèles génératifs d'IA, avec plus de 80 millions de téléchargements pour la série Qwen sur Hugging Face, reflétant ainsi son influence mondiale. La version iOS de MnnLlmApp a également été publiée, élargissant ainsi son couverture interplateforme.
Le futur de l'IA multimodale sur mobile
Cette mise à jour de MnnLlmApp marque l'accélération du transfert de l'IA multimodale du cloud vers les appareils marginaux. L'équipe de rédaction d'AIbase prévoit que, avec l'amélioration continue des modèles Qwen-2.5-Omni (par exemple, la prise en charge de vidéos plus longues ou de la génération vocale avec latence réduite), MNN jouera un rôle majeur dans les systèmes domotiques intelligents, les systèmes de conduite assistée et les assistants hors ligne. Cependant, les réseaux sociaux soulignent également que le processus de chargement des modèles (nécessitant la construction externe à partir du code source) doit être simplifié pour améliorer l'expérience utilisateur.