人工智能(AI)能否在情感充沛的情况下提出适当的行为建议?来自日内瓦大学(UNIGE)和伯尔尼大学(UniBE)的一组团队对六种生成性AI进行了测试,包括ChatGPT,使用了通常为人类设计的情商(EI)评估。结果:这些AI的表现超过了人类的平均水平,甚至能够在创纪录的时间内生成新的测试。这些发现为AI在教育、辅导和冲突管理方面开辟了新可能。 这项研究发表在《传播心理学》期刊上。
大型语言模型(LLMs)是能够处理、解释和生成自然语言的人工智能(AI)系统。例如,ChatGPT生成性AI就是基于这一类型的模型。LLMs能够回答问题和解决复杂问题。但是,它们是否也能建议情商行为?
这些结果为AI在被认为是人类专属的上下文中使用铺平了道路。
情感充沛的场景
为此,UniBE心理学学院和UNIGE的瑞士情感科学中心(CISA)的一组团队对六种LLM(ChatGPT-4、ChatGPT-o1、Gemini 1.5 Flash、Copilot 365、Claude 3.5 Haiku和DeepSeek V3)进行了情感智力测试。“我们选择了五个在研究和企业环境中常用的测试。它们涉及设计用于评估理解、调节和管理情感能力的情感充沛场景,”UniBE心理学学院个性心理学、差异心理学和评估学的讲师和首席研究员Katja Schlegel说,也是这项研究的主要作者。
例如:Michael的一位同事偷走了他的主意,并不公正地受到祝贺。Michael最有效的反应应该是什么?
a) 与相关同事争论
b) 向上司谈论这种情况
c) 默默对同事心生怨恨
d) 偷回一个主意
在这里,选项b)被认为是最合适的。
与此同时,对人类参与者进行了相同的五个测试。“最终,LLMs的得分显著更高——正确答案为82%,而人类为56%。这表明这些AI不仅理解情感,而且还理解表现出情商意味着什么,”参与研究的UNIGE瑞士情感科学中心(CISA)高级科学家Marcello Mortillaro解释说。
创纪录的时间内生成新测试
在第二阶段,科学家们要求ChatGPT-4创建新的情感智力测试,涵盖新场景。这些自动生成的测试随后由400多名参与者进行。“它们证明与原始测试一样可靠、清晰且真实,而原始测试花费了多年时间开发,”Katja Schlegel解释说。“因此,LLMs不仅能够在各种可用选项中找到最佳答案,还能生成适应所需上下文的新场景。这强化了这样的观点:LLMs,如ChatGPT,具备情感知识,并能够推理关于情感的事情,”Marcello Mortillaro补充道。
这些结果为AI在被认为是人类专属的上下文中使用铺平了道路,例如教育、辅导或冲突管理,前提是由专家使用和监督。