谷歌DeepMind聯合Kaggle升級Game Arena平臺,新增“狼人殺”和“撲克”兩款遊戲,推動AI測試從邏輯運算轉向社交推理與不確定決策,以更全面評估模型性能。
萬萬沒想到,AI 不僅能在棋盤上 “廝殺”,在 “狼人殺” 這種爾虞我詐的社交遊戲中,也展現出了驚人的智力! 最近,一場代號爲 “Elimination Game” 的 AI “狼人殺” 基準測試火爆出爐, 結果簡直讓人 “虎軀一震”: GPT-4.5竟然在這場 “社交博弈” 中 “封神”, 把 Claude3.7Sonnet 和 DeepSeek R1等一衆 AI “大佬” 都遠遠甩在了身後! 這不禁讓人驚呼: AI 的 “社交智能” 已經進化到如此恐怖的程度了嗎?這場 “Elimination Game” 的規則聽起來就 “心跳加速”: 最多8名玩家(可以是 AI 模型,也可以
歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。新鮮AI產品點擊瞭解:https://top.aibase.com/1、又炸!人們需要意識到模型只是模仿人類行爲非真正思考或理解。
["AI藝術家“Forty_Seven947”以狼人雷格西爲原型,用DALL·E3創作逼真狼人形象。","狼人形象跨足多個場景,引起“獸圈”網友熱烈反響。","狼人擬人化形象賦予動物保護和生態環境意義。","AI繪畫領域探索不斷,DALL·E 3受到用戶喜愛。","“連續進化”的AI模型帶來新玩法,如文生圖2.0等。"]
一種測試大語言模型在複雜社交博弈中智能性的基準測試框架,靈感來源於‘狼人殺’遊戲。