LLaVA-o1 ist ein visuell-sprachliches Modell, das vom Yuan-Team der Peking-Universität entwickelt wurde. Es kann spontan und systematisch schlussfolgern, ähnlich wie GPT-o1. Das Modell übertrifft andere Modelle in sechs anspruchsvollen multimodalen Benchmarks, darunter Gemini-1.5-pro, GPT-4o-mini und Llama-3.2-90B-Vision-Instruct. LLaVA-o1 löst Probleme durch schrittweise Schlussfolgerungen und zeigt so seine einzigartigen Vorteile im Bereich der visuell-sprachlichen Modelle.