文献研读 | 前额叶认知控制的动态编码

Original Runhao 鹿鸣Cogn 2022-04-26

收录于合集

按：接着之前两篇推送关于前额叶高维表征、表征动态转换的话题（最新综述 | 平衡工作记忆中的灵活性和干扰；Nature文献 | 前额叶功能总是难以捉摸？神经元的混合选择性与高维神经表征），这里回顾另一篇2013年发表在Neuron上的重要文献。本文是John Duncan在牛津的课题组的工作，一作是Mark Stokes博士，目前为牛津大学实验心理学系教授。

在一个复杂动态变化的环境中，信息加工方式需要随着情境的变化而变化。大量文献已表明前额叶（PFC）在认知灵活性或认知控制中的重要作用。Duncan（2001; Nat. Rev. Neurosci.）提出的适应性编码模型（adaptive coding model）认为，特定的任务参数会直接影响PFC的工作方式，PFC的神经元可以根据任务相关性，适应性地编码任务相关信息。在这个框架内，可以推断，改变任务参数就会改变脑网络的反应属性、改变刺激编码方式、以至于改变行为。

神经元适应性编码的示意图（Duncan, 2001, Nat. Rev. Neurosci.）：尽管不同神经元本身有不同的偏好，但是，在object任务中，神经元倾向于选择性编码object信息（'o'）；在location任务中，神经元倾向于选择性编码location信息（'l'）。

尽管PFC的适应性编码特点已经在一些动物和人类研究中被观察到，但是PFC神经元如何根据情境规则来调整其反应属性的神经生理学原理仍然不为人所知。为此，本研究使用了高时间分辨率的集群水平神经模式分析（population-level neural pattern analyses）来探索灵长类动物的PFC是如何编码与维持情境并将其用于灵活决策的。

本研究使用了延迟匹配联结任务（delayed paired-associate task；图1B），探索了两只猴子的PFC神经元在不同类型试次间的编码转换特点。猴子首先被训练将三个线索刺激与三个选择刺激联系起来（图1A），然后在任务中记录了PFC的627个随机选择的神经元（图1C）。PFC神经元集群在各条件下的的平均活动曲线如图1D所示，神经活动大概都会在刺激出现150~200ms之后达到峰值；相比于中性刺激，干扰物诱发的神经反应更强，而目标诱发的反应最强。

在这个任务中，三种试次类型（对应于三种不同的线索）是被一开始的线索（cue）所定义的，只要线索出现，相应的目标（target）或干扰（distractor）就确定了。这项任务会需要猴子在每个延迟阶段（delay）里都保持试次类型的信息，以便对接下来的选择做出正确的决策。类似地，直到刺激消失、做出“go”或“no-go”的决策之前，对每个选项刺激的决定都需要保持在大脑中（见图1注解）。基于此，可以进行接下来的数据分析。

图1 (A)线索(cue)和目标(target)的联结关系；(B)实验任务，一开始的cue就决定了当前试次的target、distractor；即决定了当前的试次类型。猴子被要求在target出现前保持注视中间的红点，直到target出现后，利用眼跳注视到目标刺激的位置可以获得奖励。非目标可能是中性刺激（neutral）或干扰刺激（distractor），但每个试次一定是以target结束；（C）实验中记录的PFC神经元，红色是猴子A，黑色是猴子B；（D）对应与图1B的不同阶段所记录到的神经元活动，下方横着的蓝色bar表示相比基线而言具有显著提高的神经放电率的时间阶段。

线索加工阶段的神经集群动态

神经加工的动态变化可以用n维空间来进行追踪。将每个神经元的活动作为一个维度，在n维坐标中可以表示n个神经元在t时刻的瞬时放电率（图2A），将每个时刻点的神经活动状态连接起来，就能表示这些神经元的编码轨迹（coding trajectory）。不同条件下的编码轨迹之间可以进行距离计算，在特定条件下状态空间位置间的多维距离（multidimensional distance）可以反映神经集群总体反应的差异。

多维距离的结果显示，在线索刺激出现后50ms后，就出现了试次类型之间的显著距离差异（图2B，蓝色线），之后轨迹继续发散，直到在约230ms的时候试次类型间达到峰值距离，然后在延迟阶段减少并维持在相对较低的程度。

作为比较，研究者也画出了整个神经元集群的平均活动来表示激活阶段的总体能量（图2B，灰色线）。可以看出，与线索相关的神经元集群轨迹的分离与能量水平的增加是同步的，但即使在延迟阶段，能量恢复到基线水平，轨迹之间的差异依然存在。这些结果表明，在延迟阶段，网络回到了一个低能量的状态，但不同的试次类型（情境）依然是可以被分离的（即可被编码）。

研究者还估计了在第二次延迟（第一次是非目标，第二次是目标的情况）和第三次延迟（前两次都是非目标，第三次是目标的情况）期间试次类型之间多维距离（图2C），结果显示，在每次刺激后，试次类型间的多维距离会逐步变小，尽管如此，在第二次延迟、第三次延迟中，不同试次类型依然很有可能被分离（p<0.001; p = 0.056）。

图2 （A）利用n维坐标表示神经活动轨迹的示意图，这里仅是n=3的情况。在t时刻点，两种特定状态之间的距离反映了神经反应之间的多维距离d(P1t, P2t)；同一种条件内，不同时刻点的距离可以表示随时间产生的位置变化，因此速度可以被定义为类似d(P1t-n, P1t+n)/2n。（B）蓝色线条表示了三种试次类型间的平均距离随时间变化的函数，显著大于机会水平距离的部分用横着的蓝色bar表示。作为参考，整体平均神经活动水平用灰色线条表示。（C）在三类延迟阶段，三种试次类型间的多维距离。

利用多维尺度分析（multidimensional scaling; MDS）可以将PFC对三种试次类型之间编码的差异可视化（图2D），结果很清晰地发现，随着时间变化，三种试次类型在状态空间中可以被分离开来（完整时间动态见动画1）。

图2 （D）利用多维尺度分析将不同试次类型间的多维距离可视化，图中展现了四个时间段；（E）上图是表示每种试次类型的瞬时速度随时间变化图；下图是总体能量随时间变化图。

动画S1

通过状态空间里的时间和距离，我们可以进一步计算活动轨迹的速度。结果表明，活动轨迹在40ms左右的时候有一个明显的初始加速（图2E，上方），在60ms左右达到第一个峰值，稍微下降之后在110ms左右达到第二次峰值。速度达到第一次峰值的时间与图2B中不同试次类型最开始出现分离的时间一致；第二次峰值时间与图2B中约100ms开始的多维距离快速增加的时间吻合；400ms以后速度回到基线水平，对应了延迟阶段的距离的平稳以及网络保持低能量的阶段。

值得注意的是，速度这一指标对网络中的能量变化很敏感，即使系统中的总体能量是不变的。因此，这种利用多维距离计算得到的速度指标可以比总体能量变化（图2E，下方）提供更加丰富的神经集群动态信息。

总之，在线索加工阶段，由线索触发的神经活动瞬时增加与区分试次类型的状态空间中活动的快速配置有关，之后活动会进入一个相对低能量的稳定状态进入延迟阶段。

对试次类型的动态神经编码：时间特异性vs时间稳定性

为了探索区分不同试次类型的神经活动的动态变化，研究者使用了一种跨时间变异的模式分类方法（cross-temporal variant of pattern classification；图3A）。首先，他们证明了这种方法可以从线索呈现后的活动模式中解码信息，这种方法发现在100ms左右出现了明显的关于线索的编码（图3B），对应图2B中距离快速发散的时间。模式分类结果同样在230ms左右达到峰值，然后在延迟阶段保持相对稳定。

利用不同的测试窗口，可以探索这种对试次类型的编码是否是跨时间稳定的。如果编码是跨时间稳定的，那么可以推断，当训练集为时间t时，测试集为时间t的结果会和测试集为时间t+n的结果非常相似（图3A）；反之，如果编码是具有时间特异性的，则测试集为时间t的结果会显著好于时间为t+n的结果。

图3 （A）基于线索呈现后50ms的时间窗内观察到的总体反应，模式分类器被训练来分类不同试次类型，然后用相同的时间窗（within-time）或不同的时间窗（cross-temporal）的测试数据来进行验证。（B）平均within-time分类指数随时间的变化（蓝色），灰色线是总体神经元集群的平均放电率。下方蓝色bar表示高于机会分类的阶段；灰色bar表示高于基线活动的阶段。

结果发现，时间特异性编码在线索加工的开始阶段最为明显（图4A）。利用刺激呈现后100~150ms的反应数据对分类器进行训练（红色），只能成功对100~200ms的近端测试数据进行分类，这说明早期100~150ms的活动模式是线索处理的早期阶段特有的，具有时间特异性，不会持续到200ms以后。

时间特异性在下一个训练时间窗口（200~250ms；图4A，黄色）也很明显，尽管可以分类的时间窗更宽一些（150~300ms左右）。然而，300ms以后的神经活动具有更强的跨时间稳定性，这种稳定性的增加和图2E中观察到的线索结束阶段和延迟阶段多维速度的减少是一致的。

图4B将图4A不同时间窗作为训练集的结果放到了一起，可以更清楚地发现上述结果。但是，所有这些基于线索阶段的分类器都无法分类目标呈现阶段的活动（图4C），尽管神经集群反应是包含了目标分辨信息的（灰色线条所示）。

图4 （A）利用不同时间窗口（阴影部分）作为训练集的分类器表现，下方bar代表分类表现显著高于随机的时间点；作为参考，灰色线条表示within-time的分类表现。（B）将图4A的线条合到一起的结果。（C）将测试集扩展到target呈现阶段的分类结果，结果发现并不能分类。（D/E）完整的跨时间分类矩阵。

完整的跨时间分类分析的结果见图4D和图4E。图4D的对角线就是within-time的分类正确率，也就是图4B/C/D中的灰色线。图4D表明，神经元集群编码在线索加工阶段（cue presentation）具有时间特异性（即跨时间分类效果差），而延迟阶段（delay period）的编码活动更具有时间稳定性（即跨时间分类效果好）。图4E同样表明，在线索阶段或延迟阶段的编码活动和目标呈现阶段的编码活动是不一样的。

上述结果表明，关于试次类型的信息在延迟阶段保持在一个稳定的低能量状态，其编码类型与线索加工阶段或目标阶段不同。

中性刺激驱动的分类：固定输入但不同模式

对PFC网络状态的系统性重新配置提示我们，即使对相同的输入，神经响应特性也可能会不同。确实，对中性刺激的神经反应随着其作为试次类型的不同而变化（图5A），这表明激活的方式是根据试次类型（即根据情境，而非根据内容本身）来决定的。利用多维尺度分析进行可视化（图5B），结果发现，在刺激出现250ms左右，对相同中性刺激的不同试次类型进行区分的神经活动最为明显（完整时间动态见动画2）。

图5 （A）每种试次类型中，网络对中性刺激反应的多维距离随时间变化的函数（类似图2B）。（B）多维尺度分析的可视化（类似图2D）

动画2

选择阶段的编码加工

研究者认为，线索加工在PFC建立了一个暂时的状态，使得PFC神经元根据当前任务情境进行调节。在此之后，研究者对三种选择刺激的反应进行了分析。

利用模式分类器的方法，图6A展示了在选择阶段，PFC从刺激依赖编码转变为情境依赖编码。最初，从90ms开始，神经集群反应可以区分不同刺激的物理属性（灰线），但140ms之后，情境相关的编码也开始出现（黑线）。

相似地，利用多维尺度分析可以将这种编码从刺激相关到情境相关的转变进行可视化（图6B；实心圆代表目标，空心圆代表干扰物）。首先，在100~125ms出现了第一次的分离，这种分离主要与刺激身份有关，和行为选择的决策无关（空心实心没有分开）；到150ms左右，两者都被分开了；但到试次的最后（约500ms），只有行为选择被分开（空心实心被分开），全时段的变化见动画3。

图6 （A）选择阶段，PFC从刺激依赖编码到情境依赖编码转变；（B）多维尺度分析的可视化；实心圆代表目标，空心圆代表干扰物；不同颜色代表不同线索。

动画3

为了进一步探索这种选择相关的证据积累是如何变化的，研究者追踪了不同决策状态（go/no-go）时神经元集群的反应变化。结果如图6C显示，区分每种试次类型决策值的参考模式是通过试次结束阶段（350~550ms）与另外两种试次类型的比较中实现的。

图6C 不同试次类型中，对于选择刺激做出“go”或"no-go"决策的证据随时间变化的函数。较粗的线代表与“go”刺激相关的证据，较细的线是“no-go”相关证据。每个选择的证据都是相对于一个独立的参考模式进行量化的（目标-干扰），正值反映了进行"go"决策的积极证据，负值代表进行“no-go”反应的积极证据。

对选择过程的分析也展示了PFC神经元如何根据任务情境来调节其神经活动，这种不同的状态决定了活动空间的轨迹，从而有效地将不同刺激映射到适当的决策值上（如图7）。

图7 PFC可能的调节机制：根据任务情境，匹配特定选择刺激的输入会沿着情境相关的轨迹，被传送到编码行为选择的活动状态。Rule 1中，Stimilus 1被传到“Go”，其余被传到“No-go”，其他亦然。

讨论与总结

本研究使用了动态模式分析的方法探索了PFC如何建立，维持，并使用灵活的认知状态来进行任务相关的决策的。研究结果支持了适应性编码模型：灵活的目标导向行为是通过PFC特性的动态变化来调节的。本研究为此提供了网络动态的详细情况：从规则编码、维持、到情境依赖的决策。

本研究发现，PFC神经元参与了从信号感知，到信息维持（可认为是短时记忆），到回忆，再到行为决策的多种过程，且在这些过程中表现出了变化的、多样性的心理状态。也就是说，PFC神经元不是只对应某一种认知功能，而是具有“混合选择性”（mixed selectivity）的（参考：Nature文献 | 前额叶功能总是难以捉摸？神经元的混合选择性与高维神经表征）。

为什么要如此复杂？这是因为如果一个系统只有特异性的神经元时，它无法工作得很好。MIT的E.K.Miller在对本文的评论文章中提到一个例子（见下图），在这个例子中，即使是最简单的两幅图（A,B）及其对应的（A0,B0），readout神经元也无法对两个相关的配对（A,A'和B,B'）和另外两对（A,B'和B,A'）进行反应。解决方法是添加对相关变量的非线性混合物做出反应的神经元，这个神经元能根据线索刺激调整其选择性（仅当线索是A的时候，它能区分A'和B'）。这样，它可以极大地增加可学习任务的复杂性和数量，同时提高学习速度、简化学习。

（A）线索和相关的目标；（B）左：两个高度专门化的输入神经元（一个对A而非对B敏感，另一个对A'而非B'敏感），汇聚到一个readout神经元上。右：横轴表示一个输入神经元的活动水平（A vs B），纵轴表示另一个（A' vs B'），三角形代表可能的输入模式，可以发现，黄色三角形和红色三角形无法用一条直线分离（无法只对A,A'和B,B'反应而不对另两组反应）。（C）当增加了一个混合选择性的神经元后，输入空间变为三维，此时可以利用平面分离红色和黄色三角形。

总之，这些具有混合选择性的适应性的神经元或许是对行为复杂性和灵活性至关重要的神经机制。

论文原文：Stokes, M. G., Kusunoki, M., Sigala, N., Nili, H., Gaffan, D., & Duncan, J. (2013). Dynamic coding for cognitive control in prefrontal cortex. Neuron, 78(2), 364-375. doi:10.1016/j.neuron.2013.01.039

相关评论：Miller, E. K. & Fusi, S. (2013). Limber neurons for a nimble mind. Neuron, 78(2), P211-213. doi: 10.1016/j.neuron.2013.04.007

相关阅读

Nature文献 | 前额叶功能总是难以捉摸？神经元的混合选择性与高维神经表征

最新综述 | 平衡工作记忆中的灵活性和干扰

Nature | 工作记忆和注意的共享控制机制

eLife | 额顶网络的动态整合支持了认知控制

文献 | 人类联合皮层的功能特异性与灵活性

文献 | 表征领域一般性/特殊性信息的脑区：10年MVPA研究总结

文献 | 领域一般性的脑区是否具有感觉偏好？

感谢支持！欢迎转发、分享！