Phi-3.5-Vision ist ein leichtgewichtiges, neuestes multimodales Modell von Microsoft, das auf einem Datensatz basiert, der synthetische Daten und sorgfältig ausgewählte, öffentlich zugängliche Webseiten umfasst. Es konzentriert sich auf hochwertige, dichte Inferenzdaten für Text und visuelle Informationen. Das Modell gehört zur Phi-3-Modellfamilie und wurde durch einen strengen Verbesserungsprozess, der überwachtes Feintuning und direkte Präferenzoptimierung kombiniert, optimiert, um präzisen Handlungsanweisungen und starke Sicherheitsmaßnahmen zu gewährleisten.