逻辑推理大翻车！GPT-4、Gemini被曝重大缺陷，LLM严重降智

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Feb 26, 2024

104

近期研究发现，大型语言模型在逻辑推理任务中受前提信息呈现顺序影响，乱序可能导致性能下降。谷歌DeepMind和斯坦福研究人员指出，逻辑自然顺序排列的前提可以提高模型表现。对于LLM等模型，改变前提顺序会导致性能下降，需要进一步研究解决。前提顺序对大型语言模型推理表现具有重大影响，仍是挑战。Gemini、GPT-4等存在重大缺陷，LLM表现严重下降。

GPT-4 Gemini LLM

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

搜索进入“智能体”时代：谷歌 Chrome 浏览器深度集成 Gemini，变身全能 AI 助手

谷歌正将Chrome浏览器升级为AI助手，推出集成AI的新功能。核心亮点是侧边栏体验，Gemini用户可直接调用AI对比购物、总结评论、搜索活动时间，推动搜索向智能代理进化。

2026年2月10号 10:11

310

2026 医疗大模型混战：百川智能超越GPT-5.2，国产“医疗十强”谁能率先突围？

2026年初，全球医疗大模型竞争加剧。OpenAI推出ChatGPT Health，Anthropic和谷歌也分别发布Claude for Healthcare和MedGemma1.5。国产医疗大模型展现出强劲竞争力，如百川智能的Baichuan-M3及M3Plus在多项指标上已超越GPT-5.2。

2026年2月10号 9:23

登顶AI智商基准测试：Claude Opus 4.6 强势超车 GPT-5.2

Anthropic的Claude Opus4.6在最新Artificial Analysis智能指数中登顶，凭借在编程、代理任务和科学推理等十项测试中的卓越表现，尤其在代理工作、终端编程和物理研究课题上领先。尽管其运行成本略高于OpenAI GPT-5.2，但效率表现突出，标志着大模型竞争格局的新变化。

2026年2月9号 14:36

720