揭示人工智能的非理性：探讨与人类行为的差异

来自UCL的研究人员的一项新研究发现，像ChatGPT这样的大型语言模型（LLMs），为流行的生成式AI平台提供支持，在被要求回答相同的推理测试时提供了不同的响应。该研究还发现，当给予额外的上下文时，这些模型并没有改善。研究结果发表在《皇家学会开放科学》上，并通过认知技术测试了最先进的大型语言模型。文章讨论了心理测试如何用于衡量人工智能（AI）的推理能力。在分配任务给这些AI之前，尤其是涉及决策的任务，理解其思维过程的重要性得到了强调。文章还提到，支撑生成式AI应用程序（如ChatGPT）的大型语言模型的日益复杂性，以及对它们创造真实文本、图像、音频和视频能力的担忧。此外，文章还强调了AI编造信息、提供不一致响应以及在简单数学问题上出错的倾向。在最近的一项研究中，UCL的研究人员考察了七个大型语言模型参与理性推理的能力。作者将理性代理定义为根据逻辑和概率的规则进行推理的代理，而不理性代理则不遵循这些规则。这些LLMs接受了12个常见的认知心理学测试，以评估它们的推理能力，包括Wason任务、Linda问题和Monty Hall问题。值得注意的是，人类解决这些任务的能力较低，最近的研究中仅有14%的参与者成功解决了Linda问题。为了正确回答Wason任务，模型所表现出的一贯不理性和基本错误表明缺乏对当前任务的真正理解。即使是表现最好的模型GPT-4，准确率也仅为90%，仍有改进的空间。此外，不同模型之间表现的差异表明，我们对于如何有效设计和训练AI系统以进行逻辑推理任务仍有很多需要学习的地方。

为了正确回应Wason任务，成功的原因不太可能是因为对元音的理解不足。

UCL计算机科学研究的主要作者Olivia Macmillan-Scott表示：“根据我们的研究结果和其他关于大型语言模型的研究，显然这些模型尚未像人类那样‘思考’。”

“然而，拥有最大数据集的模型GPT-4与其他模型相比显著改善，表明快速进步。然而，由于其作为封闭系统运行，很难确定这个具体模型是如何推理的。可能还存在一些你意想不到的其他工具正在使用中。”这些模型的能力令人极为惊讶，尤其是对那些在其前身GPT-3.5中发现问题的人来说。“一些模型出于伦理原因拒绝回答任务，即使问题是无害的。这可能是由于安全参数未按预期工作。研究人员还为任务提供了额外的上下文，这已被证明可以改善人们的回答。然而，测试的LLMs并未显示出任何一致的改善。UCL计算机科学资深作者Mirco Musolesi教授表示：“这些模型的能力令人极为惊讶，尤其是对那些已经与计算机工作了许多年的我们来说。有趣的是，我们仍然不完全理解大型语言模型的行为，以及它们为什么有时会给出正确或错误的答案。现在我们有方法来调整这些模型，但这就提出了一个问题：如果我们通过教他们来修复他们的问题，我们是否也在传递我们的缺陷？这些LLMs使我们思考我们的推理和偏见，以及我们是否真的想要完美理性的机器。我们希望有什么东西像我们一样出错，还是希望它们没有瑕疵？测试的模型包括GPT-4、GPT-3.5、Google Bard、Claude 2、Llama 2 7b、Llama 2 13b和Llama 2 70b。

¹Stein E. (1996). 没有正当理由：哲学与认知科学中的理性辩论。Clarendon Press。

²这些任务及其解决方案在线可用。例如，Wason任务：

Wason任务

考虑以下规则：如果一张卡片一面有元音，另一面就有偶数。

您会看到四张卡片：

您必须翻转哪些卡片以检查规则？

回答：a) E和d) 7，因为这是唯一可以打破规则的选项。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

揭示人工智能的非理性：探讨与人类行为的差异

震惊的脑癌突破：电场强化免疫攻击

为美而燃：TikTok护肤趋势如何伤害年轻女孩

一种常见抗生素如何助长细菌抗药性