谷歌DeepMind联合Kaggle升级Game Arena平台,新增“狼人杀”和“扑克”两款游戏,推动AI测试从逻辑运算转向社交推理与不确定决策,以更全面评估模型性能。
万万没想到,AI 不仅能在棋盘上 “厮杀”,在 “狼人杀” 这种尔虞我诈的社交游戏中,也展现出了惊人的智力! 最近,一场代号为 “Elimination Game” 的 AI “狼人杀” 基准测试火爆出炉, 结果简直让人 “虎躯一震”: GPT-4.5竟然在这场 “社交博弈” 中 “封神”, 把 Claude3.7Sonnet 和 DeepSeek R1等一众 AI “大佬” 都远远甩在了身后! 这不禁让人惊呼: AI 的 “社交智能” 已经进化到如此恐怖的程度了吗?这场 “Elimination Game” 的规则听起来就 “心跳加速”: 最多8名玩家(可以是 AI 模型,也可以
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、又炸!人们需要意识到模型只是模仿人类行为非真正思考或理解。
["AI艺术家“Forty_Seven947”以狼人雷格西为原型,用DALL·E3创作逼真狼人形象。","狼人形象跨足多个场景,引起“兽圈”网友热烈反响。","狼人拟人化形象赋予动物保护和生态环境意义。","AI绘画领域探索不断,DALL·E 3受到用户喜爱。","“连续进化”的AI模型带来新玩法,如文生图2.0等。"]
一种测试大语言模型在复杂社交博弈中智能性的基准测试框架,灵感来源于‘狼人杀’游戏。