新的研究增加了证据表明,学习成功的任务策略并不会阻止进一步的探索,即使这会降低表现。
这可能是一种生活技巧,或是一种负担,或两者兼而有之。麻省理工学院的一项新研究中一个令人惊讶的结果可能表明,人类和动物一样,天生就有继续更新任务方法的倾向,尽管他们已经学习了应如何处理任务,即使偏离有时会导致不必要的错误。
研究的高级作者Mriganka Sur表示,“探索”时而不选择“利用”,这至少有两个理由是合理的。他说,尽管任务的规则看似在某一时刻是固定的,但在这个不确定的世界里,它们并不意味着将始终保持不变,因此每隔一段时间改变行为以适应最佳条件可能有助于发现所需的调整。此外,当你已经知道自己喜欢什么时,尝试新事物也是发现是否还有比你现在拥有的好东西的方式。
“如果目标是最大化奖励,那么一旦找到完美的解决方案,你就绝不应该偏离,但你依然在探索,”Sur说道,他是麻省理工学院皮考尔学习与记忆研究所和脑与认知科学系的保罗与莉拉·牛顿教授。“为什么?这就像食物。我们都喜欢某些食物,但我们依然会尝试不同的食物,因为你永远不知道,可能会发现一些新东西。”
预测时机
前研究技术员Tudor Dragoi,现在是波士顿大学的研究生,领导了这项研究,他和Sur实验室的其他成员探索了人类和小猕猴如何对事件时机进行预测。
三名人类和两只小猕猴接受了一个简单任务。他们会在屏幕上看到一个图像一段时间——这段时间在每次试验之间变化——然后他们只需在图像消失时按下按钮(小猕猴用触控板戳,而人类用鼠标点击)。成功的定义是尽可能快地对图像的消失做出反应,而不提前按下按钮。在成功的试验中,小猕猴会获得果汁奖励。
尽管小猕猴需要的训练时间比人类长,但所有实验对象在任务上都形成了相同合理的行为模式。图像在屏幕上停留的时间越长,他们对其消失的反应时间就越快。这种行为遵循“危险模型”的预测,即如果图像只能持续这么久,那么它在屏幕上停留的时间越长,越有可能很快就消失。实验对象学习到了这一点,随着经验的增加,他们的反应时间总体上变得更快。
但是随着实验的继续,Sur和Dragoi的团队注意到还有另外一个令人惊讶的现象。对反应时间数据的数学建模显示,人类和小猕猴都让直接前一个试验的结果影响他们在下一个试验中的表现,尽管他们已经学会了该做什么。如果图像在某次试验中只在屏幕上短暂出现,那么在下一轮中,实验对象的反应时间会稍微缩短(可能是期望图像再次持续更短的时间),反之,如果图像停留的时间较长,他们的反应时间则会增加(可能是因为他们觉得自己需要等更久)。
这些结果补充了Sur实验室在2023年发表的一项类似研究的结果,研究发现即便老鼠掌握了不同认知任务的规则,它们仍会偶尔随意偏离获胜策略。在这一研究中,与这项研究一样,学到成功策略并不妨碍对象继续测试其他选择,即便这意味着牺牲奖励。
科学家们在新研究中写道:“即便在任务学习后,行为变化的持续性可能反映了探索作为寻求并建立环境的最佳内心模型的策略。”
与自闭症的相关性
Sur表示,人类和小猕猴行为的相似性也是一个重要的发现。这是因为在预测自己的环境时的差异被认为是自闭症谱系障碍的显著特征。由于小猕猴体型小,社交天性强,认知能力也比老鼠高,因此一些实验室已经开始建立小猕猴自闭症模型,但建立它们良好模拟自闭症相关行为的一个关键组成部分。在证明小猕猴能模拟神经典型人类在预测方面的行为后,这项研究因此为小猕猴确实可以为自闭症研究提供信息模型的逐渐形成的观点增加了分量。
除了Dragoi和Sur,论文的其他作者还包括Hiroki Sugihara、Nhat Le、Elie Adam、Jitendra Sharma、Guoping Feng和Robert Desimone。
西蒙斯基金会自闭症研究倡议通过麻省理工学院社交大脑西蒙斯中心支持了这项研究。