Valley-Eagle-7B est un modèle multimodal de grande taille développé par ByteDance, conçu pour gérer diverses tâches impliquant des données textuelles, images et vidéos. Ce modèle a obtenu les meilleurs résultats lors de tests internes d'e-commerce et de courtes vidéos, et a démontré des performances exceptionnelles sur OpenCompass, comparé à des modèles de taille similaire. Valley-Eagle-7B combine LargeMLP et ConvAdapter pour construire des projecteurs, et intègre VisionEncoder pour améliorer les performances dans des scénarios extrêmes.