Current Biology：挑战学习过程中经典的“多巴胺假说”

原创 brainnews创作团队 brainnews 2022-09-21

收录于合集

近日，来自美国哈佛大学心理学系和脑科学中心的Samuel J. Gershman教授团队在Current Biology 杂志在线发表了题为“The role of state uncertainty in the dynamics of dopamine”的研究，提出了多巴胺（DA）斜坡挑战了奖励预测误差（RPE）的假设，在感觉反馈存在的情况下，没有偏见的学习者将产生RPE斜坡。

欢迎加入

全国学习记忆学术讨论群

添加小编微信

brainnews_11

-留言学习记忆研究群-

基底节的强化学习模型将相位多巴胺信号映射到奖励预测错误(RPE)。传统模型证实，当刺激预测有固定延迟的奖励时，延迟期间的多巴胺活动应该通过学习回收到基线。然而，最近的研究发现，在某些条件下，即使在学习之后，多巴胺在奖励之前也会上升，从而挑战了传统的模型。为了探究这些矛盾性的结果，作者设计了一个实验范式，将DA的价值和RPE解释分开。

作者首先回顾TD学习算法，然后检查状态不确定性对价值学习的影响。在没有状态不确定性的情况下，每个状态都映射到它的价值（图1A）。另一方面，当存在一些状态不确定性时（迷宫上的红色椭圆），动物高估了价值（图1B，红点高于值函数）。在没有反馈的情况下，单个状态的状态不确定性不会随时间急剧变化，而感觉反馈减少了状态不确定性（图1C，1E）。

图1 感觉反馈使价值学习产生偏差

作者接下来探究了存在感官反馈的价值学习。当向反馈提供新的状态时，价值学习将会进行错误校准，因为每个价值点都将根据下一个值价值点的高估版本来学习（图2A）。随着随后对此偏差的纠正，动物将继续高估每个点的RPE（RPE将上升；图2D），以换取学习正确的价值函数（图2C）。

图2 存在反馈的无偏见学习会导致RPE斜坡

Schultz发现在学习之后，相位DA对预测奖励(R)的反应减少，而是开始出现在最早的奖励预测线索中（条件刺激，CS）。作者的结果也证实，在没有感觉反馈的情况下，RPE收敛到零（图3A,3B）。

前人研究发现DA信号在单次试验过程中的学习良好的导航任务期间出现斜坡，而作者也提出在存在感觉反馈的情况下，RPE会跟踪估计值函数的形状（图3C,3D）。

图3 反馈的差异导致不同的RPE行为

在对DA的竞争观点的直接测试中，作者设计了一系列实验来理清价值和RPE的关联。作者在视觉虚拟现实任务中训练了头部固定的老鼠，在这个任务中，它们虚拟地在一个场景中导航，最后获得奖励。

作者发现当小鼠从不同的位置被传送到相同的终点时，产生了较大的DA反应，并随着传送的大小而增大。在瞬间跳向奖励时，RPE非常大，并且随着更大的跳跃而增加。在暂停期间，RPE降为零，但当导航恢复时，RPE迅速增加（图4A,4B）。

当小鼠从不同的地点以相同的幅度被传送时，产生了较大的DA反应，并在靠近奖励的地方增大了大小。固定大小的瞬时隐形传输在距离奖赏更近的地方会产生更大的RPE（图4C,4D）。上述结果表明，DA的价值解释与RPE假设做出了截然不同的预测，然后证明DA行为与RPE一致，而不是与价值一致。

图4 RPE行为在各种任务操作下匹配DA响应

接下来，作者团队寻求开发一种实验范式，可以将基于不确定性的模型与传统模型区分开来。作者在视觉场景逐渐变暗的试验中早期和晚期检查RPE行为，假定在试验过程中减少了感官反馈。

正如作者的框架所预测的那样，当实验过程中场景变暗时，DA显示出一种“凹凸不平”或先上升后下降的趋势。此外，在场景亮度保持高的情况下，斜坡阶段的信号幅度总体上大于相应斜坡的幅度（图5）。

图5 状态不确定性模型预测变暗实验中的DA响应

总结总结

综上所述，在这项工作中，作者证明了感觉反馈导致无偏见的学习者产生RPE斜坡。作者的模型预测，当反馈在试验过程中逐渐减少时，多巴胺的活性应该类似于一个“凸起”，而且，它的上升阶段应该比反馈保持高的情况下的阶段更大。作者在不同亮度的虚拟导航任务中训练小鼠，两种预测都得到了经验上的观察。

总之，作者的理论和实验结果调和了在RPE假说下关于多巴胺行为的似乎相互矛盾的数据。

参考文献

Mikhael JG, Kim HR, Uchida N, Gershman SJ. The role of state uncertainty in the dynamics of dopamine. Curr Biol. 2022 Mar 14;32(5):1077-1087.e9. doi: 10.1016/j.cub.2022.01.025. Epub 2022 Feb 2. PMID: 35114098.

编译作者：Leo Ray（brainnews创作团队）

校审：Simon（brainnews编辑部）

编译如果有误，请及时留言沟通

往

Nature子刊综述：神奇的肠道神经元

期

Alzheimer's Dement：血浆淀粉样蛋白β可预测轻度认知障碍患者转归为痴呆的风险

推

Immunity: 小胶质细胞和神经细胞中的 I 型干扰素信号促进与Aβ 斑块相关的记忆障碍

荐

Nat Rev Neurosci：自闭症遗传基础全面解析，为阐明其病理和推进治疗提供希望！

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

Current Biology：挑战学习过程中经典的“多巴胺假说”

Nature子刊综述：神奇的肠道神经元

Alzheimer's Dement：血浆淀粉样蛋白β可预测轻度认知障碍患者转归为痴呆的风险

Immunity: 小胶质细胞和神经细胞中的 I 型干扰素信号促进与Aβ 斑块相关的记忆障碍

Nat Rev Neurosci：自闭症遗传基础全面解析，为阐明其病理和推进治疗提供希望！

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

生成图片，分享到微信朋友圈

Current Biology：挑战学习过程中经典的“多巴胺假说”

Nature子刊综述：神奇的肠道神经元

Alzheimer's Dement：血浆淀粉样蛋白β可预测轻度认知障碍患者转归为痴呆的风险

Immunity: 小胶质细胞和神经细胞中的 I 型干扰素信号促进与Aβ 斑块相关的记忆障碍

Nat Rev Neurosci：自闭症遗传基础全面解析，为阐明其病理和推进治疗提供希望！

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时