LLaVA-o1 es un modelo de lenguaje visual desarrollado por el equipo Tuple de la Universidad de Pekín. Realiza razonamiento espontáneo y sistemático, similar a GPT-o1. Supera a otros modelos en seis desafiantes pruebas de referencia multimodales, incluyendo Gemini-1.5-pro, GPT-4o-mini y Llama-3.2-90B-Vision-Instruct. LLaVA-o1 resuelve problemas mediante razonamiento paso a paso, demostrando una ventaja única en los modelos de lenguaje visual.