EAGLE
Exploration de l'espace de conception des grands modèles linguistiques multimodaux
Produit OrdinaireProgrammationApprentissage multimodalGrands modèles linguistiques
EAGLE est une série de grands modèles linguistiques (LLM) multimodaux à haute résolution centrés sur la vision. Il améliore les capacités perceptives des LLM multimodaux grâce à un encodeur visuel hybride et des résolutions d'entrée variables. Le modèle intègre une fusion 'CLIP+X' basée sur la connexion de canaux, adaptée aux experts visuels dotés d'architectures (ViT/ConvNets) et de connaissances (détection/segmentation/OCR/SSL) différentes. La famille de modèles EAGLE prend en charge plus de 1 000 résolutions d'entrée et obtient d'excellents résultats sur les benchmarks des LLM multimodaux, notamment sur les tâches sensibles à la résolution, comme la reconnaissance optique de caractères et la compréhension de documents.
EAGLE Dernière situation du trafic
Nombre total de visites mensuelles
492133528
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:33