Phi-3.5-vision est un modèle multi-modal léger et de nouvelle génération développé par Microsoft. Construit sur un ensemble de données comprenant des données synthétiques et des sites Web accessibles au public et sélectionnés, il se concentre sur des données d'inférence denses et de haute qualité pour le texte et la vision. Ce modèle, appartenant à la famille des modèles Phi-3, a subi un processus d'amélioration rigoureux combinant l'ajustement fin supervisé et l'optimisation directe des préférences pour garantir une précision dans le suivi des instructions et de solides mesures de sécurité.