最好的Gemini-1.5Pro AI工具模型_精選Gemini-1.5Pro資訊

AI資訊

GPT-4o和Sonnet-3.5在視力測試中敗北，VLM們竟是“盲人”？

視覺語言模型（VLMs）如GPT-4o、Gemini-1.5Pro等，已展示了在圖像與文本處理上的優異表現，甚至在視覺理解測試中成績亮眼。然而，新近研究揭示出，這些AI在本質上並未達到完全模擬人類視覺理解的能力。一份名爲“BlindTest”的測試結果顯示，這些高級模型在識別基本圖形關係（如判定圖示中線條交集、圖形重疊）等方面，準確率平均僅達56.20%，最高僅73.77%，遠低於人類的出色表現。這一發現呈現了一個關鍵現象——VLMs的“視”如同近視者，難以精準捕捉並理解圖像中細節和精確的空間關係，如判斷兩個圓是否相交或數數圖像中的具體圓圈數量時，普遍存在偏差。特別是，當圖像中圓圈數量脫離“5”這個數值時，模型偶有“偏好”，顯示其在數量識別上的侷限性。這些發現挑戰了公衆對VLMs能力的認知，揭示了AI在圖像語義理解方面的侷限性，並提醒我們人工智能在視覺理解能力方面仍存在顯著的待解決問題。

9.8k 12-18

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商務合作網站地圖