奖赏是动物学习的一个主要驱动因素。中脑腹侧被盖区(Ventral tegmental area,VTA)的多巴胺能神经元活动已被证明是重要的脑内奖赏处理机制。在巴普洛夫条件制约实验中,未经训练的动物的多巴胺系统不会对信号(cue)产生反应,而对奖赏品产生反应。经反复训练后,多巴胺能神经元的活动会重新调整,对预测奖赏的信号产生反应,而对奖赏品本身则不再反应。进一步量化奖赏时发现,多巴胺能神经元在应对更大的奖赏时会重新出现一定量的反应;而在应对更小,或失去奖赏时,调低基础性的时相性活动(tonic activity)。这就是Wolfram Schultz提出的预测误差假说(reward prediction error hypothesis)的基础[1]。这个假说已经取得了巨大的成功。然而,其中一个重要机制迄今仍没能通过实验被验证。那就是,必须存在一种神经活动用以编码奖赏的量度(primary reward value)。只有奖赏量度编码的存在,多巴胺活动才能预测一定量度的奖赏,也才能比较预测量和即时量的误差,从而校正以后的预测活动。近日,耶鲁大学Marina Picciotto团队在Science Advances上发表了题为“Activity of a direct VTA to ventral pallidum GABA pathway encodes unconditioned reward value and sustains motivation for reward”的研究论文。他们在小鼠脑内鉴定了一个神经通路,在动物学习怎么操作以回应信号从而得到食物奖赏的任务中,其电活动能应答动物获得/享用奖赏品的行为,并以电活动强度来编码奖赏量度,包括奖赏的数量(food size)和质量(food palatability)。另一方面,这个神经通路的编码活动很稳定,不随动物投入精力的变化而变化,不随训练的时程而变化,也不会转向去应答/编码信号。因此,此神经通路的编码功能很可能可以为预测误差假说补上这个重要的实验证据。边缘系统中多巴胺能神经元来源于中脑VTA。它们参与直接通路和间接通路,其信号经伏隔核(nucleus accumbens)的GABA能神经元接力,最终汇入腹侧苍白球(ventral pallidum,VP)以调节动物的运动和行为。而Picciotto团队曾报道VTA内的GABA能神经元大量的直接投射到VP[2],引发猜想:从VTA经不同路径、不同类神经递质所携带的信息最终汇入相同的边缘神经系统的输出终端:腹侧苍白球,那么这两种通路传递的信息是相互冗余,还是有所分工?它们参与调节相同还是各异的生理功能?在此次报道的论文中,对这些问题做了初步的探索。此项研究首先追踪鉴定VTA GABA能神经轴突投射到,而不仅仅是途经,VP。利用Cre-依赖性表达荧光蛋白的病毒来感染有Cre标记GAD65(GAD65-Cre)的小鼠的VTA,发现VTA GABA能神经元的轴突形成一条明显的投射带,并在VP区域终结(图1B)。用电生理手段注入生物胞素至背侧VP的神经元胞内并着色,发现这些轴突形成典型的末梢结构,包绕VP内的神经元胞体和近端树突(图1C)。进一步研究显示VTA GABA能神经元在VP内主要和当地的GABA能神经元形成突触连接,也和其他一些如乙酰胆碱能神经元,表达CaMK2的神经元有突触连接。(图源:Zhou et al., Sci Adv., 2022)为确认VTA GABA能神经元与VP的靶细胞连接是有功能的突触连接,作者在GAD-Cre小鼠的VTA内注入Cre-依赖性表达光敏感通道的病毒(图1A),于感染表达成熟后制作包含VP的急性脑片,并用膜片钳技术记录VP当地的神经元在蓝光照射下的电生理反应。结果显示有相当数量的VP神经元在蓝光照射下产生显著的电流反应(图2A,B),表明前述突触连接是有功能的。有意思的是,在药理学测试时发现,大部分突触是picrotoxin敏感的GABA能,而小部分是混合了GABA能和CNQX敏感的谷氨酸能(图2F)。(图源:Zhou et al., Sci Adv., 2022)接下来,作者应用光纤记录(Fiber photometry)技术并设计了一种信号-操作-奖赏(CRT)任务和无信号的累进比率响应奖赏(PR)任务来寻找,在生理状况下,这一通路(VTA至VP的GABA投射)会应对什么行为而产生电活动。如图1A,Cre-依赖性表达光敏感通道的病毒被注入GAD65-Cre小鼠的VTA,而记录光纤被对准背侧VP埋入此小鼠的前脑。在实验中,随机提供一个视听信号(cue),在信号发出后5秒内,如果小鼠用鼻尖探入一个“有效”小孔,就可以得到一次可口食物的奖赏(图3A)。结果显示,在得到并享用奖赏时,该通路轴突末梢稳定的出现显著的活动信号(图3F);而在cue出现和动物应对cue(鼻探)时,轴突末梢中也有活动信号,但较之前者信号极小(比较曲线下面积;图3G和I)。在多天的训练中,通路应对奖赏时的活动信号并不会发生改变(图4A)。在PR任务中,信号也不会随动物投入的精力(effort)增加而变化。而当改变奖赏的量(图4C),或者奖赏品的口感,即稀释度(图4E)时,通路的活动信号的模式则随之发生相应改变。图3 光纤记录揭示VTA至VP的GABA通路在应对奖赏时有强烈电活动(图源:Zhou et al., Sci Adv., 2022)图4 VTA至VP的GABA通路活动强度对应奖赏的量度(primary reward value)(图源:Zhou et al., Sci Adv., 2022)那么,VTA至VP的GABA通路在产生电活动时,对VP内的靶细胞活动有什么影响呢?作者采用交叉策略,专一在此神经元内表达激动型设计受体(Gq-DREADD),并用显微相机记录VP内本地神经元的钙信号(图5A),以显示动物在索求(seeking)、获得并享用(consuming)奖赏品等阶段VP内神经元的电活动变化。试验时,动物被训练舔水嘴10次可获得一次蔗糖水奖赏,随后5秒内舔舐无效(FR10/FI5,图5E)。动物实际舔水嘴的模式如图5E中licks所示。在奖赏发出前的舔舐可视为动物富有积极性(motivation)的索求行为(seeking);奖赏发出后的舔舐则为享用行为(consumption)。结果显示,部分VP内神经元在索求时产生一个活动峰(图5F),还有一部分在享用时产生一个活动峰(图5G)。当用CNO激动VTA至VP的GABA通路的电活动时,VP内有更多的神经元在索求活动时产生活动峰;相应的,似乎更少神经元在享用时产生活动峰(没有统计显著性)。图5 VTA至VP的GABA通路的电活动调节VP内细胞应对动物索求奖赏时的电活动(图源:Zhou et al., Sci Adv., 2022)通常认为,积极性也是由纹状体(striatum)内的多巴胺水平决定的[3]。然而上述实验结果显示,VTA至VP的GABA活动似乎也能提供一种提高积极性的神经机制。因而作者利用光遗传学,在CRT和PR任务中激动此通路的电活动,来测试该通路电活动对包括积极性在内的一系列行为是否存在调节作用。结果显示,加强该通路的电活动明显加快学习的进程(图6C),提高获取奖赏的效率(图6G和H)。但并不会加强信号-奖赏之间的联系强度。PR任务被广泛用来检测动物索求奖赏的积极性。而在PR任务中加强该通路的电活动则验证了前述猜想,即,加强VTA至VP的GABA通路的电活动可以显著提高动物索求奖赏的积极性(图7)。图6 VTA至VP的GABA通路的电活动提高动物在信号-奖赏任务中的表现(图源:Zhou et al., Sci Adv., 2022)图7 VTA至VP的GABA通路的电活动提高动物索取奖赏的积极性(图源:Zhou et al., Sci Adv., 2022)文章结论与讨论,启发与展望奖赏品的出现和享用会同时开启中脑腹侧被盖区(VTA)内的多巴胺能和GABA能神经元活动。文章提供证据提示, VTA至腹侧苍白球(VP)的GABA活动一方面可以为多巴胺的预测编码提供奖赏量度编码作参照,另一方面调制VP内的神经元活动模式,从而在索取奖赏时提供更多神经元电活动用以提高积极性,并在信号-奖赏任务中提高动物获取奖赏的效率和表现。
VTA的多巴胺能神经元投射到纹状体参与直接/间接通路的调节,其信号经伏隔核GABA能神经元接力,最终汇入VP并输出;而VTA的部分GABA神经元则直接投射到VP,并将其电活动转化为对VP当地神经元群的电活动模式的调制。作者猜想VTA对VP的GABA输入可能为多巴胺系统提供一种前馈调节机制,并共同调制边缘系统的输出,为动物的奖赏性学习提供预测误差和积极性。由此,该文章的工作为揭示脑内全面的奖赏机制向前推进了一步,也为药物成瘾等影响大脑奖赏机制的疾病和行为的解决方案提供了新的靶点。原文链接:https://www.science.org/doi/10.1126/sciadv.abm5217(照片提供自:Marina Picciotto课题组)(照片提供自:Marina Picciotto课题组)作者简介:Marina Picciotto
Charles B. G. Murphy Professor, Yale University
Editor-in-Chief, The Journal of Neuroscience
President-elect, Society for Neuroscience (2023)