法学硕士在人为干预下变得更加隐蔽地种族主义

   日期:2025-08-23     来源:本站    作者:admin    浏览:77    
核心提示:      即使这两句话的意思相同,模型也更有可能将“脏”、“懒”和“愚蠢”等形容词应用于AAE的使用者,而不是标准美式英

  

  

  即使这两句话的意思相同,模型也更有可能将“脏”、“懒”和“愚蠢”等形容词应用于AAE的使用者,而不是标准美式英语(SAE)的使用者。这些模型将说AAE的人与声望较低的工作联系起来(或者根本不把他们与工作联系起来),当被要求对一个假设的刑事被告作出判决时,他们更有可能建议判处死刑。

  一个更值得注意的发现可能是研究人员在试图解决这种偏见的方式中指出的一个缺陷。

  为了清除模型中的仇恨观点,OpenAI、meta和谷歌等公司使用反馈培训,即人工调整模型对某些提示的反应方式。这个过程通常被称为“对齐”,旨在重新校准神经网络中的数百万个连接,并使模型更好地符合期望值。

  这种方法很好地对抗了明显的刻板印象,领先的公司已经采用了近10年。例如,如果用户提示GPT-2说出对黑人的刻板印象,它可能会列出“可疑的”、“激进的”和“激进的”,但根据论文,GPT-4不再回应这些联想。

  然而,这种方法在研究人员在研究中使用非裔美国人英语时引发的隐性刻板印象上失败了,该研究发表在arXiv上,尚未经过同行评审。他们说,部分原因是公司没有意识到方言偏见是一个问题。训练一个模型不回应公然的种族主义问题也比训练它不对整个方言做出负面反应更容易。

  “反馈训练教会模型考虑自己的种族主义,”艾伦人工智能研究所(Allen Institute for AI)研究员、该论文的合著者瓦伦丁·霍夫曼(Valentin Hofmann)说。“但方言偏见打开了更深层次。”

  拥抱脸公司的伦理研究员阿维吉特·高希(Avijit Ghosh)没有参与这项研究,他说,这一发现让人们对公司解决偏见的方法产生了质疑。

  他说:“这种模式拒绝吐出种族主义的输出,只不过是一个很容易被打破的脆弱的过滤器。”

 
打赏
 
更多>同类文章

推荐图文
推荐文章
点击排行