大脑深处,腹侧被盖区不仅仅在信号奖励时起作用,还准确预测我们何时会获得奖励。这一发现源于神经科学家和人工智能研究人员之间的优雅合作,揭示了VTA神经元不仅预测未来奖励的可能性,还预测其精确时机。
一个被称为腹侧被盖区(VTA)的脑小区域在我们处理奖励方面发挥着关键作用。它产生多巴胺,这是一种神经调节物,帮助根据上下文线索预测未来奖励。来自日内瓦大学(UNIGE)、哈佛大学和麦吉尔大学的一个团队表明,VTA的作用更进一步:它不仅编码预期奖励,还编码预期的确切时刻。这个发现得益于一种机器学习算法,突显了将人工智能与神经科学结合的价值。该研究发表在《自然》期刊上。
腹侧被盖区(VTA)在动机和大脑奖励电路中发挥着关键作用。作为多巴胺的主要来源,这小群神经元将这种神经调节物发送到其他大脑区域,以便在响应正刺激时触发动作。
“最初,VTA被认为只是大脑的奖励中心。但是在1990年代,科学家们发现它不仅编码奖励本身,而是奖励的预测,”日内瓦大学医学系基础神经科学系的全职教授亚历山大·普盖特(Alexandre Pouget)解释道。
对动物的实验表明,当奖励始终跟随光信号时,例如,VTA最终释放多巴胺并不是在奖励的瞬间,而是光信号刚出现时。这一反应因此编码的是与信号相关的奖励预测,而不是奖励本身。
一种更复杂的功能
这种“强化学习”需要最小的监督,是人类学习的核心。这也是许多通过训练提高性能的人工智能算法背后的原则,例如AlphaGo,这是一种在围棋比赛中击败世界冠军的首个算法。
在最近的一项研究中,亚历山大·普盖特的团队与哈佛大学的内田直志(Naoshige Uchida)和麦吉尔大学的保罗·马塞特(Paul Masset)合作,表明VTA的编码比之前认为的更复杂。“VTA并不是预测未来奖励的加权总和,而是预测它们的时间演变。换句话说,每个收益是分别表示的,并标注了预期的确切时刻,”这项工作的领导者、UNIGE研究员解释道。
“虽然我们知道VTA神经元优先考虑与当前时间接近的奖励,而非更远期的奖励——基于‘手中有鸟胜过林中二鸟’的原则——我们发现不同神经元在不同时间尺度上进行优先考虑,有的关注几秒钟内可能获得的奖励,有的关注一分钟内预期的奖励,还有些关注更远期的预期。这种多样性使得奖励时机的编码成为可能。这种更精细的表示方式赋予学习系统极大的灵活性,使其能够根据个体的目标和优先事项,调整以最大化即时或延迟的奖励。”
人工智能与神经科学:双向街道
这些发现源于神经科学与人工智能之间富有成效的对话。亚历山大·普盖特开发了一个完全数学化的算法,纳入了奖励处理的时机。同时,哈佛的研究人员收集了大量关于经历奖励的动物在VTA活动的神经生理数据。
“他们随后将我们的算法应用于他们的数据,发现结果与他们的实证发现完全匹配。”虽然大脑激发了人工智能和机器学习技术,但这些结果表明算法也可以作为强大的工具,揭示我们神经生理机制。