Phi-3.5-vision es un modelo multimodal ligero de última generación desarrollado por Microsoft. Construido sobre un conjunto de datos que incluye datos sintéticos y sitios web de acceso público filtrados, se centra en datos de razonamiento denso y de alta calidad para texto y visión. Este modelo, perteneciente a la familia Phi-3, ha pasado por un riguroso proceso de mejora que combina el ajuste fino supervisado y la optimización de preferencias directas para garantizar un seguimiento preciso de las instrucciones y sólidas medidas de seguridad.