大模型的隐秘偏见:方言歧视如何悄然滋生
语言模型在多个领域展现出广泛应用,从教育到法律咨询,甚至预测医疗风险。然而,随着这些模型在决策过程中的权重增加,它们可能无意中反映了人类训练数据中的偏见,加剧对少数群体的歧视。研究发现,语言模型存在隐性种族主义,尤其是在处理非洲裔美国英语(AAE)时,表现出有害的方言歧视,比对非洲裔美国人的任何已知刻板印象更消极。通过“匹配伪装”方法对比AAE与标准美国英语文本,研究揭示了模型在隐性偏见上与最负面刻板印象的高度重合。一些旨在缓解显性偏见的训练方法反而可能加剧隐性和显性刻板印象的差距。这些发现强调了语言技术公平和安全使用的重要性,以及在开发和应用这些技术时需要的敏感性和细致考虑。