AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
TW

AI資訊

查看更多

GPT-4o和Sonnet-3.5在視力測試中敗北,VLM們竟是“盲人”?

視覺語言模型(VLMs)如GPT-4o、Gemini-1.5Pro等, 已展示了在圖像與文本處理上的優異表現,甚至在視覺理解測試中成績亮眼。 然而,新近研究揭示出,這些AI在本質上並未達到完全模擬人類視覺理解的能力。一份名爲“BlindTest”的測試結果顯示,這些高級模型在識別基本圖形關係(如判定圖示中線條交集、圖形重疊)等方面,準確率平均僅達56.20%,最高僅73.77%,遠低於人類的出色表現。 這一發現呈現了一個關鍵現象——VLMs的“視”如同近視者,難以精準捕捉並理解圖像中細節和精確的空間關係,如判斷兩個圓是否相交或數數圖像中的具體圓圈數量時,普遍存在偏差。特別是,當圖像中圓圈數量脫離“5”這個數值時,模型偶有“偏好”,顯示其在數量識別上的侷限性。 這些發現挑戰了公衆對VLMs能力的認知,揭示了AI在圖像語義理解方面的侷限性,並提醒我們人工智能在視覺理解能力方面仍存在顯著的待解決問題。

9.8k 12-18
GPT-4o和Sonnet-3.5在視力測試中敗北,VLM們竟是“盲人”?
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖