查看原文
其他

Current Biology:挑战学习过程中经典的“多巴胺假说”

brainnews创作团队 brainnews 2022-09-21

近日,来自美国哈佛大学心理学系和脑科学中心的Samuel J. Gershman教授团队在Current Biology 杂志在线发表了题为“The role of state uncertainty in the dynamics of dopamine”的研究,提出了多巴胺(DA)斜坡挑战了奖励预测误差(RPE)的假设,在感觉反馈存在的情况下,没有偏见的学习者将产生RPE斜坡。



欢迎加入

全国学习记忆学术讨论群

添加小编微信

brainnews_11

-留言学习记忆研究群-



基底节的强化学习模型将相位多巴胺信号映射到奖励预测错误(RPE)。传统模型证实,当刺激预测有固定延迟的奖励时,延迟期间的多巴胺活动应该通过学习回收到基线。然而,最近的研究发现,在某些条件下,即使在学习之后,多巴胺在奖励之前也会上升,从而挑战了传统的模型为了探究这些矛盾性的结果,作者设计了一个实验范式,将DA的价值和RPE解释分开。


作者首先回顾TD学习算法,然后检查状态不确定性对价值学习的影响。在没有状态不确定性的情况下,每个状态都映射到它的价值(图1A)。另一方面,当存在一些状态不确定性时(迷宫上的红色椭圆),动物高估了价值(图1B,红点高于值函数)。在没有反馈的情况下,单个状态的状态不确定性不会随时间急剧变化,而感觉反馈减少了状态不确定性(图1C,1E)


图1 感觉反馈使价值学习产生偏差


作者接下来探究了存在感官反馈的价值学习。当向反馈提供新的状态时,价值学习将会进行错误校准,因为每个价值点都将根据下一个值价值点的高估版本来学习(图2A)。随着随后对此偏差的纠正,动物将继续高估每个点的RPE(RPE将上升;图2D),以换取学习正确的价值函数(图2C)


图2 存在反馈的无偏见学习会导致RPE斜坡


Schultz发现在学习之后,相位DA对预测奖励(R)的反应减少,而是开始出现在最早的奖励预测线索中(条件刺激,CS)。作者的结果也证实,在没有感觉反馈的情况下,RPE收敛到零(图3A,3B)


前人研究发现DA信号在单次试验过程中的学习良好的导航任务期间出现斜坡,而作者也提出在存在感觉反馈的情况下,RPE会跟踪估计值函数的形状(图3C,3D)


图3 反馈的差异导致不同的RPE行为


对DA的竞争观点的直接测试中,作者设计了一系列实验来理清价值和RPE的关联。作者在视觉虚拟现实任务中训练了头部固定的老鼠,在这个任务中,它们虚拟地在一个场景中导航,最后获得奖励。


作者发现当小鼠从不同的位置被传送到相同的终点时,产生了较大的DA反应,并随着传送的大小而增大。在瞬间跳向奖励时,RPE非常大,并且随着更大的跳跃而增加。在暂停期间,RPE降为零,但当导航恢复时,RPE迅速增加(图4A,4B)


当小鼠从不同的地点以相同的幅度被传送时,产生了较大的DA反应,并在靠近奖励的地方增大了大小。固定大小的瞬时隐形传输在距离奖赏更近的地方会产生更大的RPE(图4C,4D)。上述结果表明,DA的价值解释与RPE假设做出了截然不同的预测,然后证明DA行为与RPE一致,而不是与价值一致。


图4 RPE行为在各种任务操作下匹配DA响应


接下来,作者团队寻求开发一种实验范式,可以将基于不确定性的模型与传统模型区分开来。作者在视觉场景逐渐变暗的试验中早期和晚期检查RPE行为,假定在试验过程中减少了感官反馈。


正如作者的框架所预测的那样,当实验过程中场景变暗时,DA显示出一种“凹凸不平”或先上升后下降的趋势。此外,在场景亮度保持高的情况下,斜坡阶段的信号幅度总体上大于相应斜坡的幅度(图5)


图5 状态不确定性模型预测变暗实验中的DA响应



总 结总结


综上所述,在这项工作中,作者证明了感觉反馈导致无偏见的学习者产生RPE斜坡。作者的模型预测,当反馈在试验过程中逐渐减少时,多巴胺的活性应该类似于一个“凸起”,而且,它的上升阶段应该比反馈保持高的情况下的阶段更大。作者在不同亮度的虚拟导航任务中训练小鼠,两种预测都得到了经验上的观察。


总之,作者的理论和实验结果调和了在RPE假说下关于多巴胺行为的似乎相互矛盾的数据。




参考文献

Mikhael JG, Kim HR, Uchida N, Gershman SJ. The role of state uncertainty in the dynamics of dopamine. Curr Biol. 2022 Mar 14;32(5):1077-1087.e9. doi: 10.1016/j.cub.2022.01.025. Epub 2022 Feb 2. PMID: 35114098.


编译作者:Leo Ray(brainnews创作团队)

校审:Simon(brainnews编辑部)

编译如果有误,请及时留言沟通


Nature子刊综述:神奇的肠道神经元

Alzheimer's Dement:血浆淀粉样蛋白β可预测轻度认知障碍患者转归为痴呆的风险

Immunity: 小胶质细胞和神经细胞中的 I 型干扰素信号促进与Aβ 斑块相关的记忆障碍

Nat Rev Neurosci:自闭症遗传基础全面解析,为阐明其病理和推进治疗提供希望!



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存