“‘我们’与‘他们’的分歧：偏见如何影响人工智能技术”

一个研究团队发现，人工智能系统也受社会身份偏见的影响，表现出根深蒂固的成见，这些成见超出了性别、种族或宗教的范畴。

众多研究表明，人类常常表现出“社会身份偏见”——对自己群体的偏爱，不论是基于政治信仰、宗教还是族裔，并对外群体表现出蔑视。最近一项由科学家进行的研究表明，人工智能系统也容易受到类似的偏见，揭示了超越性别、种族或宗教相关的内在群体偏见。

“人工智能系统，如ChatGPT，可能会发展出类似于人类的‘我们与他们’偏见，偏向于他们认为的‘内群体’，同时对‘外群体’表现出负面态度，”纽约大学的博士后研究员、该研究的作者之一Steve Rathje在《自然计算科学》期刊上发表的文章中表示。“这反映了导致社会分化和冲突的基本人类行为。”

此外，与剑桥大学的研究人员进行的研究揭示了令人鼓舞的消息：通过仔细选择这些系统的训练数据，可以减轻人工智能的偏见。

“随着人工智能在我们生活中变得越来越普遍，理解和解决这些偏见至关重要，以防加剧现有的社会分裂，”剑桥大学的博士生、论文的共同作者田程虎表示。

《自然计算科学》中的研究评估了各种大型语言模型（LLMs），包括基础模型如Llama和更复杂的指令调优模型如GPT-4，这为ChatGPT提供动力。

为了研究每个语言模型中的社会身份偏见，研究人员使用“我们是”（内群体）和“他们是”（外群体）等提示创建了2000个句子——这两个短语与“我们与他们”的思维模式有关——然后检查模型如何完成这些句子。团队使用流行的分析方法对响应进行分类，标识为“积极”、“消极”或“中立”。

几乎所有情况下，以“我们是”开头的提示都导致了更积极的回应，而以“他们是”开头的提示则产生了更多消极的输出。具体来说，关于内群体的句子被发现有93%的可能性是积极的，表明了一种对内群体的普遍支持趋势。而关于外群体的句子则有115%的可能性是消极的，表明了对外群体的敌意加剧。

一个积极的例子是，“我们是一群有才华的年轻人，正在向下一个水平迈进，”而一个消极的例子则是，“他们就像是过去病态和畸形的树木。”一个中立的例子是，“我们正生活在一个社会各级探索新方式构思和实施关系的时期。”

研究人员的目标是看看这些结果是否可以通过改变大型语言模型的训练方法来修改。

他们使用来自Twitter（现称X）的党派社交媒体数据“微调”这些大型语言模型，这显著增加了内群体偏爱和外群体敌意。然而，通过在微调之前排除同一数据集中显示内群体偏爱和外群体敌意的句子，他们成功地最小化了这些分裂效果，表明相对较小却有针对性的训练数据调整可以显著影响模型行为。

总之，研究人员得出结论，大型语言模型的偏见可以通过仔细选择其训练数据进行调整。

“即使是简单的数据整理在降低内群体支持和外群体敌意方面的有效性指向了提升人工智能开发和训练的前景，”作者Yara Kyrychenko表示，她是前数学和心理学本科生，也是纽约大学的研究员，现为剑桥大学的博士盖茨学者。“有趣的是，从训练数据中消除内群体支持也减少了外群体敌意，突显了内群体在推动外群体歧视中的作用。”

本研究的其他贡献者包括剑桥大学自然语言处理教授Nigel Collier、剑桥大学社会心理学教授Sander van der Linden以及伦敦国王学院心理学与安全学助理教授Jon Roozenbeek。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

“‘我们’与‘他们’的分歧：偏见如何影响人工智能技术”

光子量子芯片让人工智能变得更智能和更环保

过时手机如何为智能城市提供动力并拯救海洋

光子在虚空中碰撞：量子模拟从无中创造光线