最好的Llama-3.2-Vision AI工具模型_精選Llama-3.2-Vision資訊

AI資訊

北大團隊發佈多模態模型 LLaVA-o1，推理能力堪比 GPT-o1！

近日，北京大學等科研團隊宣佈發佈了一款名爲 LLaVA-o1的多模態開源模型，據稱這是首個能夠進行自發、系統推理的視覺語言模型，堪比 GPT-o1。該模型在六個具有挑戰性的多模態基準測試中表現優異，其11B 參數的版本超越了其他競爭者，如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。LLaVA-o1基於 Llama-3.2-Vision 模型，採用了 “慢思考” 推理機制，能夠自主進行更加複雜的推理過程，超越了傳統的思維鏈提示方法。在多模態推理基準測試中，LLaVA-o1的表現超出了其基礎模型8.9%。該模型的

17.8k 5 小時前