AI大语言模型幻觉排行榜:Gemini 2.0 Flash幻觉最低
近日,Vectara 发布了一份名为 “幻觉排行榜” 的报告,比较了不同大型语言模型(LLM)在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1),该模型定期更新,旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据,报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在最新的排行榜中,谷歌的 Gemini2.0系列表现出色,尤其是 Gemini-2.0-Flash-001,以0.7% 的低幻觉率位居榜首,显示出其在处理文档时几乎没有引