O Valley-Eagle-7B é um modelo multimodal de grande porte desenvolvido pela ByteDance, projetado para lidar com diversas tarefas envolvendo dados de texto, imagem e vídeo. O modelo obteve resultados excelentes em testes internos de e-commerce e vídeos curtos, e apresentou desempenho superior a modelos de mesmo porte nos testes OpenCompass. O Valley-Eagle-7B combina LargeMLP e ConvAdapter para construir projetores e introduz o VisionEncoder para melhorar o desempenho em cenários extremos.