最好的Llama-3.2-Vision AI工具模型_精选Llama-3.2-Vision资讯

AI资讯

北大团队发布多模态模型 LLaVA-o1，推理能力堪比 GPT-o1！

近日，北京大学等科研团队宣布发布了一款名为 LLaVA-o1的多模态开源模型，据称这是首个能够进行自发、系统推理的视觉语言模型，堪比 GPT-o1。该模型在六个具有挑战性的多模态基准测试中表现优异，其11B 参数的版本超越了其他竞争者，如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。LLaVA-o1基于 Llama-3.2-Vision 模型，采用了 “慢思考” 推理机制，能够自主进行更加复杂的推理过程，超越了传统的思维链提示方法。在多模态推理基准测试中，LLaVA-o1的表现超出了其基础模型8.9%。该模型的

20.5k 2 小时前