歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。新鮮AI產品點擊瞭解:https://app.aibase.com/zh1、xAI發佈Grok4.20:推理性能提升顯著,不幻覺率78%創行業紀錄xAI發佈Grok4.20,其推理性能顯著提升,非幻覺率高達78%,創行業紀錄。國產模型憑藉高性價比優勢,正在推動大模型Token消耗量的增長。
馬斯克旗下xAI發佈Grok4.20Beta,主打提升AI“誠實度”,解決“一本正經胡說八道”問題。儘管在智力跑分上仍落後於頂級模型,但在誠實度指標上刷新行業紀錄,展現差異化發展路徑。
2026年3月12日,xAI發佈新一代大語言模型Grok4.20 Beta。該模型在保持價格優勢的同時,以極高的事實可靠性創下行業新紀錄。在啓用推理功能的智能指數評估中,Grok4.20獲得48分,較前代提升6分。雖然其綜合基準測試得分(57分)仍略低於Gemini3.1Pro Preview和GPT-5.4,但在AA全知測試中表現突出,非幻覺率高達78%。
在Alpha Arena 1.5賽季中,xAI的Grok4.20模型以12.11%的回報率奪冠,將1萬美元在14天內增值至12,193美元,成爲唯一盈利的大型語言模型。同期GPT-51和Gemini3.0分別虧損3.4%和5.7%。比賽採用無人干預規則,模型需在“苦行僧模式”(高槓杆限制)和“情境感知模式”(可查看對手持倉)下自動交易。