逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智
站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
OpenAI发布GPT-5.2-Codex,这是其最强的代理式编程模型,基于GPT-5.2系列,专为复杂长周期软件开发优化。模型将AI从代码助手升级为能自主处理工程任务的“代理”,在长程任务性能和可靠性上实现质的飞跃,并能理解超大规模代码库。

Google DeepMind旗下AI视频生成模型Veo3.1迎来重大更新,核心优化“Ingredients to Video”功能,显著提升人物、物体、纹理与背景的一致性,新增原生竖版输出和专业级4K超分能力,使AI视频从演示工具升级为实用生产工具。
OpenAI心理健康安全研究负责人安德莉亚·瓦隆内离职,加入竞争对手Anthropic的对齐团队,向此前离职的Jan Leike汇报。她曾主导GPT-4和GPT-5模型安全政策,其研究领域涉及AI情感依赖等争议问题。
AI编程工具Cursor测试显示,GPT-5.2在构建完整Web浏览器的复杂编程任务中,逻辑一致性、任务持久性和工程理解力表现突出,显著超越Claude Opus4.5。
沃尔沃EX60将成全球首款搭载谷歌Gemini大语言模型的量产车,实现对话式AI智能座舱。其“渡鸦核心”计算平台融合高通与英伟达芯片,让车辆能理解意图并主动执行复杂操作,推动智能汽车进入新阶段。
Cursor团队测试发现,GPT-5.2在构建复杂Web浏览器等长周期编程任务中,比Claude Opus4.5更可靠。测试涉及HTML解析、CSS布局和JavaScript虚拟机等底层开发,GPT-5.2在需要数百万行代码的“长跑式”项目中表现更优。
百度发布文心大模型ERNIE-5.0-0110,在LMArena全球文本能力榜中位列第八,是唯一进入前十的国产模型。其在数学推理领域表现尤为突出,排名全球第二,仅次于未公开的GPT-5.2-High,展现了国产大模型在专业领域的突破。

印度AI新星Alpie大模型表现亮眼,在GSM8K数学榜单和SW软件工程榜单上超越GPT-4o等主流模型,以320亿参数实现高效性能,被誉为印度版“DeepSeek”。

人工智能在数学领域取得重大突破,GPT5.2模型仅用15分钟便证明了保罗·埃尔德什遗留的未解难题,并通过形式化工具验证。埃尔德什的千余猜想曾被视为人类智慧边界,但近期已有15个问题被解决,其中11个由AI完成。

谷歌更新“趋势探索”工具,引入Gemini AI技术,实现从手动搜索到智能洞察的转变。新版工具能自动识别和深度关联热门话题,帮助用户更高效地探索趋势。更新已在桌面端全球逐步推出。