尴尬。人类在读懂氛围方面仍然优于人工智能

人类在解释社交互动和理解动态场景中的社会动态方面，优于当前的人工智能模型。研究人员认为，这可能是因为人工智能神经网络受到处理静态图像的大脑部分基础结构的启发，而这与处理动态社交场景的大脑区域不同。

事实证明，人类在描述和解释动态场景中的社交互动方面，比当前的人工智能模型更为出色。这一技能对于自动驾驶汽车、辅助机器人和其他依赖人工智能系统在现实世界中导航的技术至关重要。

这项研究由约翰霍普金斯大学的科学家领导，发现人工智能系统在理解与人互动所需的社交动态和背景方面存在缺陷，并建议问题可能根植于人工智能系统的基础结构。

“例如，自动驾驶汽车的人工智能需要识别人类驾驶员和行人的意图、目标和行为。你会希望它知道行人即将开始走哪个方向，或者两个人是在交谈还是准备过马路，” 该研究的主要作者、约翰霍普金斯大学认知科学助理教授Leyla Isik说。“每当你希望人工智能与人类互动时，你希望它能够识别人们的行为。我认为这揭示了一个事实：这些系统目前无法做到这一点。”

在研究期间，Kathy Garcia是一名在Isik实验室工作的博士生，也是共同第一作者，她将于4月24日在国际学习表示会议上介绍研究结果。

为了确定人工智能模型与人类感知相比的表现，研究人员请人类参与者观看三秒钟的视频剪辑，并根据理解社交互动的重要特征在一到五的范围内评分。视频剪辑包括人们相互互动、并排活动或独立进行活动的场景。

研究人员随后要求超过350个人工智能语言、视频和图像模型预测人类如何评判视频以及他们的大脑在观看时的反应。对于大型语言模型，研究人员让人工智能评估简短的人类编写的说明。

参与者在所有问题上大多达成一致；而人工智能模型，无论大小或训练数据，均未能达成一致。视频模型无法准确描述视频中人们的行为。即使是获得一系列静态框架进行分析的图像模型，也无法可靠地预测人们是否在沟通。语言模型在预测人类行为方面表现更好，而视频模型在预测大脑神经活动方面表现更好。

研究人员表示，结果与人工智能在分析静态图像方面的成功形成鲜明对比。

“仅仅看到一张图像并识别物体和面孔是不够的。这是第一步，这在人工智能领域走了很长的路。但现实生活并非静态。我们需要人工智能理解场景中发生的故事。理解社交互动的关系、背景和动态是下一步研究，而这项研究表明，人工智能模型开发中可能存在盲点，”Garcia说。

研究人员认为这与人工智能神经网络受到处理静态图像的大脑部分基础结构的启发有关，而这与处理动态社交场景的大脑区域不同。

“这里有很多细微差别，但最大的收获是，没有任何人工智能模型能够在各个方面与人类大脑和行为在场景反应上相匹配，就像它们对静态场景所做的那样，”Isik说。“我认为人类处理场景的方式有某种基本的特征，这些模型缺失了。”

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

尴尬。人类在读懂氛围方面仍然优于人工智能

震惊的脑癌突破：电场强化免疫攻击

为美而燃：TikTok护肤趋势如何伤害年轻女孩

一种常见抗生素如何助长细菌抗药性