神经科学家发现大脑通过试错学习使用双重系统。这是首次识别到第二个学习系统,这可能有助于解释习惯是如何形成的,并为解决与习惯学习相关的状况(如成瘾和强迫症)提供科学基础。对小鼠的研究也可能对开发帕金森病治疗药物有影响。
UCL的Sainsbury Wellcome Centre(SWC)的神经科学家发现大脑通过试错学习使用双重系统。这是首次识别到第二个学习系统,这可能有助于解释习惯是如何形成的,并为解决与习惯学习相关的状况(如成瘾和强迫症)提供科学基础。今天在《自然》上发布的这项小鼠研究还可能对开发帕金森病治疗药物有影响。
“从本质上讲,我们发现了一种机制,我们认为它是习惯的成因。一旦您对某个行为产生了偏好,您就可以绕过基于价值的系统,仅依赖以往所做的默认政策。这可能会让您释放出认知资源,以便对其他事物做出基于价值的决策,” SWC的组长及研究首席作者Marcus Stephenson-Jones博士解释道。
研究人员发现了大脑中的多巴胺信号,这种信号是之前已知的教学信号的另一种类型。大脑中的多巴胺信号已被理解为形成奖励预测误差(RPE),它指示动物实际结果是否优于或劣于预期。在这项新研究中,科学家发现除了RPE以外,还有一种额外的多巴胺信号,称为动作预测误差(APE),它更新一个动作被执行的频率。这两种教学信号为动物提供了两种不同的选择学习方式,学习选择最有价值的选项或最频繁的选项。
“想象一下,您去当地的三明治店。第一次去时,您可能会花时间选择三明治,根据您的选择,您可能会喜欢或不喜欢它。但如果您多次光顾这家店,您就不会再花时间考虑选择哪个三明治,而是开始默认选择一个您喜欢的三明治。我们认为是大脑中的APE多巴胺信号让您存储了这个默认政策,” Stephenson-Jones博士解释道。
新发现的学习系统提供了一种比直接比较不同选项值更简单的信息存储方式。这可能让大脑能够进行多任务处理。例如,一旦您学会了驾驶,您还可以在旅途中与人交谈。当您的默认系统在完成所有重复的驾驶任务时,您的基于价值的系统可以决定谈论什么。
先前的研究发现,学习所需的多巴胺神经元驻留在中脑的三个区域:腹侧被盖区、黑质致密部和黑质外侧部。虽然一些研究显示这些神经元参与编码奖励,但早期研究发现这些神经元中有一半与运动编码有关,但原因仍然是个谜。
RPE神经元投射到除一个区域外的所有纹状体区域,称为纹状体尾部。而与运动特定的神经元则投射到除伏隔核以外的所有区域。这意味着伏隔核专门信号奖励,而纹状体尾部则专门信号运动。
通过研究纹状体尾部,团队能够分离运动神经元并发现它们的功能。为了测试这一点,研究人员使用了一种小鼠听觉辨别任务,这种任务最初是由寒泉港实验室的科学家开发的。共同第一作者Francesca Greenstreet博士、Hernando Martinez Vergara博士和Yvonne Johansson博士使用了一种基因编码的多巴胺传感器,显示该区域的多巴胺释放与奖励无关,而与运动有关。
“当我们损伤纹状体尾部时,发现了非常特征性的模式。我们观察到,损伤的小鼠和对照小鼠最初以相同的方式学习,但一旦它们达到约60-70%的表现,即当它们形成偏好(例如,对于高音左转,对于低音右转)时,对照小鼠迅速学习并发展为专家表现,而损伤的小鼠则继续线性学习。这是因为损伤的小鼠只能使用RPE,而对照小鼠有两种学习系统,RPE和APE,参与选择,” Stephenson-Jones博士解释道。
为了进一步理解这一点,团队让专家小鼠的纹状体尾部失活,发现这对它们在任务中的表现产生了灾难性的影响。这表明,在早期学习中,动物基于RPE的价值系统形成偏好,而在晚期学习中,它们转而完全依赖纹状体尾部的APE来存储这些稳定的关联并驱动选择。团队还利用Claudia Clopath博士主导的大量计算模型,理解这两个系统RPE和APE是如何共同学习的。
这些发现暗示了为什么打破坏习惯如此困难,以及用其他事情替代某个行为可能是最佳策略。如果您足够一致地替代一个行为,例如用口香糖代替抽烟,APE系统可能会接管并在另一个习惯之上形成新的习惯。
“现在我们知道这种第二学习系统存在于大脑中,我们有科学基础来开发新的策略打破坏习惯。迄今为止,对成瘾和强迫症的大多数研究都集中在伏隔核。我们的研究为寻找潜在的治疗靶点开辟了新方向,” Stephenson-Jones博士评论道。
这项研究还有可能对帕金森病产生影响,已知其是由中脑多巴胺神经元的死亡引起,特别是在黑质致密部。已经证明死亡细胞与运动相关的多巴胺神经元,可能负责编码APE。这也许能解释为什么帕金森病患者在进行像步行这样习惯性行为时会出现缺陷,而在进行更灵活的行为(如溜冰)时不会。
“突然之间,我们现在有了针对帕金森病的矛盾运动的理论。死亡的与运动相关的神经元是推动习惯性行为的神经元。因此,使用习惯系统的运动受到影响,但使用基于价值的灵活系统的运动是正常的。这为我们提供了在大脑中寻找新方向的机会,以及对帕金森病的新思考方式,” Stephenson-Jones博士总结道。
研究团队现在正在测试APE是否真的是习惯所必需的。他们还在探索每个系统到底学习了什么以及两者如何协同工作。这项研究得到了EMBO长期奖学金(ALTF 827-2018)、瑞典研究委员会国际博士后资助(2020-06365)、来自Gatsby慈善基金会和Wellcome的Sainsbury Wellcome Centre核心资助(219627/Z/19/Z)、Sainsbury Wellcome Centre博士项目以及欧洲研究委员会的资助(Starting #557533)。