欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、xAI发布Grok4.20:推理性能提升显著,不幻觉率78%创行业纪录xAI发布Grok4.20,其推理性能显著提升,非幻觉率高达78%,创行业纪录。国产模型凭借高性价比优势,正在推动大模型Token消耗量的增长。
马斯克旗下xAI发布Grok4.20Beta,主打提升AI“诚实度”,解决“一本正经胡说八道”问题。尽管在智力跑分上仍落后于顶级模型,但在诚实度指标上刷新行业纪录,展现差异化发展路径。
2026年3月12日,xAI发布新一代大语言模型Grok4.20 Beta。该模型在保持价格优势的同时,以极高的事实可靠性创下行业新纪录。在启用推理功能的智能指数评估中,Grok4.20获得48分,较前代提升6分。虽然其综合基准测试得分(57分)仍略低于Gemini3.1Pro Preview和GPT-5.4,但在AA全知测试中表现突出,非幻觉率高达78%。
在Alpha Arena 1.5赛季中,xAI的Grok4.20模型以12.11%的回报率夺冠,将1万美元在14天内增值至12,193美元,成为唯一盈利的大型语言模型。同期GPT-51和Gemini3.0分别亏损3.4%和5.7%。比赛采用无人干预规则,模型需在“苦行僧模式”(高杠杆限制)和“情境感知模式”(可查看对手持仓)下自动交易。