Apple a récemment présenté dans ses recherches un nouveau modèle d'image appelé Manzano, conçu pour traiter à la fois l'analyse et la génération d'images. Cette capacité double est un défi technique que rencontrent de nombreux modèles open source actuels, et Apple affirme que cela rend son modèle plus proche des systèmes commerciaux tels que ceux proposés par OpenAI et Google en termes d'efficacité et de performance.
Actuellement, Manzano n'est pas encore disponible au public ni démontré publiquement. Cependant, l'équipe de recherche d'Apple a partagé un article de recherche accompagné d'exemples d'images à faible résolution, qui montrent les capacités du modèle lorsqu'il traite des instructions complexes. Ces exemples ont été comparés aux sorties des modèles open source Deepseek Janus Pro et des systèmes commerciaux GPT-4o et Gemini2.5Flash Image Generation (surnommé "Nano Banana"). Dans trois tests avec des instructions complexes, Manzano a montré des performances équivalentes à celles de GPT-4o d'OpenAI et de Nano Banana de Google.
Apple souligne que la principale limitation des modèles open source actuels réside dans le fait qu'ils doivent souvent choisir entre une forte capacité d'analyse d'images et une capacité de génération, alors que les systèmes commerciaux peuvent les combiner. En particulier, lorsqu'il s'agit de tâches contenant beaucoup de texte, comme la lecture de fichiers ou l'interprétation de graphiques, les modèles existants se révèlent particulièrement faibles.
La conception de Manzano repose sur un marqueur d'image hybride, ce qui lui permet de produire deux types de marques : des marques continues et des marques discrètes. Les marques continues, représentées par des nombres flottants, sont utilisées pour l'analyse, tandis que les marques discrètes divisent l'image en catégories fixes pour faciliter la génération. Étant donné que les deux types de marques proviennent du même encodeur, cela réduit les conflits possibles présents dans les modèles traditionnels.
Pendant la phase d'entraînement, Manzano intègre des adaptateurs continus et discrets pour ajuster le décodeur du modèle de langage. Lors de l'inférence, il fournit deux flux de données nécessaires pour comprendre et générer des images. L'architecture de Manzano se compose principalement de trois parties : le marqueur hybride, le modèle de langage unifié et un décodeur d'image indépendant pour la sortie finale. Apple a construit trois décodeurs d'images avec différents nombres de paramètres : 90 millions, 175 millions et 352 millions de paramètres, supportant des résolutions allant de 256 à 2048 pixels.
Les tests d'Apple ont montré que Manzano se distingue sur plusieurs benchmarks, notamment dans les tâches intensives en texte telles que l'analyse de graphiques et de fichiers, où la version de 3 milliards de paramètres a obtenu les meilleurs résultats. L'étude a également constaté que les performances s'améliorent continuellement avec l'augmentation du nombre de paramètres du modèle, passant de 3 à 30 milliards.
Manzano peut non seulement gérer des tâches classiques de modification d'images, mais aussi effectuer de nouvelles tâches telles que l'édition basée sur des instructions, le transfert de style, le remplissage d'images, l'extension et l'estimation de profondeur. Apple considère que Manzano est une alternative viable aux modèles existants, et sa conception modulaire pourrait avoir un impact profond sur l'intelligence artificielle multimodale future.
Article : https://arxiv.org/abs/2509.16197
Points clés :
🌟 Manzano est un nouveau modèle d'image capable de traiter à la fois l'analyse et la génération d'images.
🔍 Les recherches d'Apple montrent que Manzano se distingue dans les tâches complexes comportant beaucoup de texte, approchant les performances des systèmes commerciaux.
⚙️ Le modèle utilise un marqueur d'image hybride, réduisant ainsi les conflits entre l'analyse et la génération d'images.