大模型竟在“装傻”!研究发现它们知道正确答案却故意说错
一项由以色列理工学院主导的最新研究表明,大型语言模型(LLM)可能“深藏不露”,掌握的知识比实际表现出来的更多。研究人员发现,LLM 的内部表征编码了关于其输出正确性的信息,即使它们最终生成了错误的答案,也能在内部识别出正确答案。该研究团队重点分析了 LLM 在长文本生成中的错误,这更贴近其在现实世界中的应用场景。他们构建了一个错误检测数据集,通过比较模型生成的答案与真实答案来判断其正确性,并以此为基础,研究 LLM 内部表征中编码真实性信号的位置。研