逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智
站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

SuperCLUE-VLM最新榜单显示,谷歌Gemini-3-Pro以83.64分大幅领先,在视觉理解与推理方面优势明显。国产模型表现突出,商汤SenseNova V6.5Pro和字节豆包分列第二、三位,展现中国AI在多模态领域的快速进步。评测涵盖三大核心能力维度。
苹果在AI领域采取保守策略,或成其2026年被低估的竞争优势。自2024年WWDC宣布AI愿景后,苹果交付进度放缓,转而以UI革新为主打,而竞争对手在AI基础设施上持续发力。
SuperCLUE-VLM多模态测评显示,谷歌Gemini-3-pro以83.64分夺冠,在基础认知、视觉推理和应用三大维度全面领先。国产模型表现亦受关注。

微软Copilot AI应用完成重大升级,全量推送GPT5.2模型,命名为“智能+”模式。新版本主打“专家级”办公支持,核心优势在于强大的“思考”变体模型,特别擅长处理逻辑复杂、流程冗长的办公任务。

微软正式推出GPT-5.2模型,作为免费升级版本与现有GPT-5.1共存。该模型具备更强的深度逻辑推理能力,能快速处理电子表格、代码编写与审查、长文档理解等任务,并在复杂工具调用和图像分析方面表现突出,标志着Copilot进入智能增强新阶段。
福特汽车首席财务官谢里·豪斯重申公司将继续支持苹果CarPlay,强调福特致力于满足用户需求,保留这一广受欢迎的技术选择,以提升驾驶体验。

NVIDIA与斯坦福大学联合发布通用游戏AI智能体NitroGen,在1000多款游戏、4万小时数据上训练而成,具备强大跨游戏泛化能力。研究团队将开源数据集和模型权重,推动全球AI与游戏研究发展。
英伟达发布大模型微调指南,降低技术门槛,让普通开发者也能在消费级设备上高效完成模型定制。该指南详解如何在NVIDIA全系硬件上利用开源框架Unsloth实现专业级微调。Unsloth专为NVIDIA GPU打造,优化训练全流程,提升性能。
2026北京亦庄人形机器人半程马拉松将于4月19日举行,采用“人机共跑”模式,人类选手与机器人在隔离区间同场竞技。赛事聚焦机器人自主性、拟人步态和长续航能力,设置自主导航组与遥控组,通过加权系数鼓励技术向完全自主化发展。同期还将举办“巴图鲁”挑战赛,模拟应急救援场景。
Waymo正测试将谷歌Gemini大模型集成到无人驾驶出租车中,打造名为“Waymo出行助手”的车载AI伴侣。一份长达1200多行的内部指令曝光,显示该AI被设计为安全、克制、高度场景化的乘客服务引擎。