AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
數據集市
TW

AI資訊

查看更多

​北大團隊發佈多模態模型 LLaVA-o1,推理能力堪比 GPT-o1!

近日,北京大學等科研團隊宣佈發佈了一款名爲 LLaVA-o1的多模態開源模型,據稱這是首個能夠進行自發、系統推理的視覺語言模型,堪比 GPT-o1。該模型在六個具有挑戰性的多模態基準測試中表現優異,其11B 參數的版本超越了其他競爭者,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。LLaVA-o1基於 Llama-3.2-Vision 模型,採用了 “慢思考” 推理機制,能夠自主進行更加複雜的推理過程,超越了傳統的思維鏈提示方法。在多模態推理基準測試中,LLaVA-o1的表現超出了其基礎模型8.9%。該模型的

17.8k 5 小時前
​北大團隊發佈多模態模型 LLaVA-o1,推理能力堪比 GPT-o1!

模型

查看更多

Llama 3.2 Vision 11b 4bits

vanthuanngo

L

這是一個託管在Hugging Face Hub上的transformers模型,具體功能和用途尚未明確說明。

自然語言處理TransformersTransformers
vanthuanngo
308
1
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖