芝加哥大学研究发现,AI文本检测器性能差异显著,部分工具准确率高,但有的频繁误判,尤其在短文本中失灵。Pangram检测器以高精度和成本效益表现最佳。研究基于1992篇人类文本和四款主流大模型,覆盖六类文本类型,揭示检测器在可靠性和鲁棒性方面的不足。
芝加哥大学研究发现,市面AI文本检测工具性能差异显著。研究基于1992篇人类文本(含评论、新闻、小说等六类)及GPT-4等主流模型生成的AI文本进行测试,结果显示不同检测工具准确率存在明显差距,呼吁提升检测技术可靠性。
精准检测ChatGPT等多模型AI生成内容,支持20+语言,准确率超99.98%