EAGLE est une série de grands modèles linguistiques (LLM) multimodaux à haute résolution centrés sur la vision. Il améliore les capacités perceptives des LLM multimodaux grâce à un encodeur visuel hybride et des résolutions d'entrée variables. Le modèle intègre une fusion 'CLIP+X' basée sur la connexion de canaux, adaptée aux experts visuels dotés d'architectures (ViT/ConvNets) et de connaissances (détection/segmentation/OCR/SSL) différentes. La famille de modèles EAGLE prend en charge plus de 1 000 résolutions d'entrée et obtient d'excellents résultats sur les benchmarks des LLM multimodaux, notamment sur les tâches sensibles à la résolution, comme la reconnaissance optique de caractères et la compréhension de documents.