Groundlight 開源框架,搞定複雜的視覺推理
一直專注於讓AI看懂世界的 Groundlight 研究團隊,近日放大招,宣佈開源了一套全新的 AI 框架!這套框架旨在攻克視覺領域的一大難題——複雜的視覺推理,讓AI不僅能“看圖識物”,更能像福爾摩斯一樣,從圖像中推理出更深層次的信息。 我們都知道,現在的AI在識別貓貓狗狗方面已經爐火純青,但要讓它們理解圖片背後的邏輯關係,進行更復雜的推理,就常常“卡殼”。 Groundlight 的研究人員指出,當前的視覺語言模型 (VLM) 在理解圖像本身尚且不足的情況下,更難以完成需要深度解讀的