Valley é um modelo multimodal de larga escala de ponta desenvolvido pela ByteDance, capaz de lidar com diversas tarefas envolvendo dados de texto, imagem e vídeo. O modelo obteve os melhores resultados em benchmarks internos de comércio eletrônico e vídeos curtos, superando outros modelos de código aberto. No teste OpenCompass, sua pontuação média foi superior ou igual a 67,40, ocupando a segunda posição entre os modelos com menos de 10B de parâmetros, em comparação com modelos de tamanho semelhante. A versão Valley-Eagle, baseada no Eagle, introduz um codificador visual que permite ajustar de forma flexível o número de tokens e opera em paralelo com os tokens visuais originais, melhorando o desempenho do modelo em cenários extremos.