Phi-3.5-vision é um modelo multimodal leve e de última geração desenvolvido pela Microsoft, construído com base em conjuntos de dados que incluem dados sintéticos e sites publicamente disponíveis e filtrados, focando em dados de raciocínio denso e de alta qualidade para texto e visão. Este modelo pertence à família de modelos Phi-3 e passou por um rigoroso processo de aprimoramento, combinando ajuste fino supervisionado e otimização de preferência direta para garantir o seguimento preciso de instruções e fortes medidas de segurança.