InternVL2_5-4B-MPO-AWQ est un grand modèle linguistique multi-modal (MLLM) axé sur l'amélioration des performances du modèle dans les tâches d'interaction image-texte. Ce modèle est basé sur la série InternVL2.5 et ses performances sont encore améliorées grâce à l'optimisation des préférences mixtes (MPO). Il peut traiter de multiples entrées, notamment des images simples et multiples, ainsi que des données vidéo, et convient aux tâches complexes nécessitant une compréhension interactive d'images et de texte. InternVL2_5-4B-MPO-AWQ, grâce à ses capacités multimodales exceptionnelles, offre une solution puissante pour les tâches de conversion image-texte en texte.