北大團隊發佈多模態模型 LLaVA-o1,推理能力堪比 GPT-o1!
近日,北京大學等科研團隊宣佈發佈了一款名爲 LLaVA-o1的多模態開源模型,據稱這是首個能夠進行自發、系統推理的視覺語言模型,堪比 GPT-o1。該模型在六個具有挑戰性的多模態基準測試中表現優異,其11B 參數的版本超越了其他競爭者,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。LLaVA-o1基於 Llama-3.2-Vision 模型,採用了 “慢思考” 推理機制,能夠自主進行更加複雜的推理過程,超越了傳統的思維鏈提示方法。在多模態推理基準測試中,LLaVA-o1的表現超出了其基礎模型8.9%。該模型的