AI玩《我的世界》大比拼!Claude新版本建築水平驚豔全網
近日,一場別開生面的AI能力評測在《我的世界》平臺上展開,吸引了大量關注。新舊兩個版本的Claude3.5Sonnet在遊戲中展開建築PK,展現出明顯的能力差異,新版本(暫稱"Sonnet3.6")的表現尤其亮眼。這項由開發者adi發起的測試被戲稱爲"唯一可靠的評測基準"。評測基準研究者Aidan McLau認爲這個方法恰好滿足了當前AI評測的需求,並指出審美能力與智力水平密切相關。該項目很快獲得了開源社區的支持,相關代碼已在GitHub上線。測試結果顯示,各大模型都展現出獨特的"個性":Sonnet3.6在創意性方