人类观察学习中对选择模仿与目标模拟的策略抉择的神经计算模型

Original NCC lab 神经计算与控制实验室 2022-04-17

本文详细介绍了近期发表在Neuron上的论文“A Neuro-computational Account of Arbitration between Choice Imitation and Goal Emulation during Human Observational Learning”。

作者在文中探讨了大脑如何在两种常见的观察学习方式（选择模仿和目标模拟）之间做出选择。作者设计了不同情景下的行为实验，拟合了多种模型，找到了合适的模型对选择模仿（Choice Imitation）和目标模拟（Goal Emulation）的抉择进行解释，并使用fMRI找到了对应的脑区。

太长不看版：

在实际中，两种学习策略并存。

模仿学习依赖于观察并重复动作，与镜像神经元（mirror neuron）系统的脑区高度重叠，包括前运动皮层和下顶叶皮层。

模拟学习通过表示学习对象的目标来实现心理化（mentalizing），包括dmPFC，双侧岛叶，右侧TPJ，IFG和背侧纹状体。模拟学习需要使用更多认知和注意力资源。

研究背景

▲▲▲

不管是通过观察专家的表现来学习新技能，学会寻求奖赏和避免惩罚，还是做出复杂的战略决策，观察性学习（Observational learning, OL）在我们的日常生活中都是很重要的，它使得个人可以学习到行为的后果而不比承受直接行动的风险。有两种不同的观察性学习方法：模仿（imitation）和模拟（emulation）。在模仿中，人会选择学习对象过去最常选择的动作；而在模拟中，人会推断出学习对象的目标、信念、意图或隐藏的精神状态。如果这两种不同的OL策略彼此并存，但一些基本问题仍然不清楚：即大脑如何决定在给定情况下应采用哪种策略，以及一种或其他策略在什么条件下指导行为？

//实验设计//

图1 实验任务设计

在任务（图1A）中，被试看到学习对象在游戏机之间进行选择。如果选择了该机器，则每台机器上的颜色比例明确表示获得三个令牌（红色，绿色或蓝色）之一的概率。指示被试在每个时刻仅一个令牌是有价值的，并且在整个任务中有价值的令牌进行了多次切换，但没有告知哪个令牌是有价值的或何时发生切换。在3个试验中的2个（“观察”试验）中，被试通过视频来观察其学习对象，并且知道学习对象具有有关有价值令牌的完整信息，并且表现最佳。在3个试验中的1个（“游戏”试验）中，被试扮演自己。在每个试验中，都有一台游戏机不可用，因此无法选择。至关重要的是，被试可以通过推断哪个令牌在当前有价值来学习，并根据可观察到的颜色分布（目标模拟）计算游戏机的相对值。或者，他们可以通过选择学习对象在最近的试验中最常选择的动作（选择模仿）来模仿学习对象的先前行为。通过在整个试验中更改不可用机器的位置，我们可以将这两种策略分开。

图1B中可以看到，任务包含2（稳定/波动）X2（低/高不确定性）设计的8组(blocks)，每组30个试验(trials)。表格中的背景色描述了当前有价值的令牌（绿色，红色或蓝色），且被试不知道。实验设计中平衡了各组顺序在不同被试之间的不同。在稳定的组中，发生了一次有价值令牌的更换；在波动的组中，发生了5个更换。图1C中看到，在低不确定性组中，令牌概率分布为[0.75，0.2，0.05]；高不确定性投币机为[0.5，0.3，0.2]，这使得低不确定性组投币机值的计算难度比高不确定性组的困难。

重要的是，结果的货币价值没有透露。尽管被试观察到结果令牌，但他们不能通过观察其颜色来分辨其价值。这确保了他们必须在仿真系统中利用推理来解决这个问题，并且不能依赖替代性的奖励学习。这是第三种潜在的OL策略，在这种策略中，一个人可以从另一个对象的奖励中学习。

作者对两组个30个被试进行了实验，其中，研究1在研究2进行之前进行了预注册。同时作者记录了实验中的fMRI信号。

//行为实验结果//

图2 OL策略的行为信号

作者使用了逻辑回归（Logistic Regression）来对两种策略进行分类。在每个游戏试验中，左，右两个游戏机的选择由动作学习回归器（模仿imitation的信号：学习对象过去执行的左右动作）和令牌学习回归器（模拟emulation的信号：选择左右游戏机的概率根据推断的令牌信息来预测）来预测。结果我们可以从图2A和图2B中可以看到，研究1和研究2的结果都很显著，表明模仿和模拟之间确实是相互融合的。一个点代表一个被试，红色线条代表beta均值。t检验：* p <0.0001。

同时作者对比了9种不同的模型（见文章方法细节部分）来对选择模仿和目标模拟两种策略的抉择的机制进行检验。图2C和图2D展示了抉择模型以及简单的模拟模型和模仿模型如何捕捉动作学习和和令牌学习的效果。红色数据点表示数据的真实效果（误差线表示标准误差）；直方图显示了从模型生成的数据中恢复的效果的分布。好的效果以浅蓝色显示，不好效果的灰色显示。在研究1（C）和研究2（D）中，抉择模型（左）有效地捕获了两种学习效果。模拟模型（中）生成的数据仅捕获基于令牌的学习；模仿模型（右）生成的数据仅捕获基于动作的学习。

图3 波动性和不确定性对抉择的影响

操纵了两个因素：波动性（有价值的令牌的更换频率；图1B）和不确定性（与游戏机相关的令牌颜色分布；图1C）。在不稳定的组中，学习对象的动作变得不太一致，对选择模仿增加了难度，从而间接地倾向于模拟（emulation）。令牌颜色分布的不确定性使得很难根据给定有价值的令牌来推断最佳决策，而又不会影响学习对象动作的一致性。这给模拟增加了难度，并间接地激励了选择模仿（imitation）。为了对此进行测试，作者提取了每个主题和每个条件的模型的抉择权重 w(t) 值，这些值代表了模拟的可能性（相对于模仿）。如预测的那样，波动且低不确定性（VL）试验，较稳定且高不确定性（SH）试验抉择权重更高（图3A，图3B）。在所有4个条件下，一个主要受波动率影响，一个主要受不确定性影响，表明这两种因素均具有调节作用。其次，我们通过分别计算每种条件下每种模型的平均似然度（Mean Likelihood, LL），比较了选择模仿模型（imitation）和目标模拟模型（emulation）的性能（图3C，图3D）。
当令牌颜色分布的不确定性较低时，被试倾向于模拟。当学习对象的动作稳定且令牌颜色分布的不确定性较高时，被试更青睐选择模仿。在波动性高不确定性试验中，策略之间没有差异。这些结果也在研究2中得到验证。

//神经测量结果//

图4 抉择信号与预注册分析

作者对fMRI数据使用了通用线性模型（General Linear Models, GLMs）。我们检验了模拟相关（模拟可靠性，更新的令牌价值，令牌价值的熵），模仿相关（模仿可靠性，模仿动作价值差异）和抉择相关（模拟-模仿可靠性差，选择行为价值）的信号。

在四个ROIs (Region Of Interests)（图4A）中跟踪了选择模仿和目标模拟之间的可靠性差异（预测每项抉择）：dmPFC，双边TPJ，右侧vlPFC。图中黑色横线表示beta的均值。使用全脑组分析并进行区域水平的多重比较错误（FWE）校正，发现了四个显著的区域（图4C）：右前岛叶（insula），背侧扣带回皮质（ACC；部分与dmPFC ROI重叠），右下额回（IFG）和右角回（angular）。在选择时，所选游戏机的期望值在眶额内侧皮层中编码为正，而在辅助运动前区域（preSMA；图4E）中为负。在研究2（图4BDF）中，绿色表示研究1的对应区域显著，灰色表示不显著。

图5 模拟和模仿信号与预注册分析

模拟可靠性在双侧TPJ和右侧vlPFC中表示（图5A）。在全脑分析中，还发现了另外一个区域，该区域编码了右前岛的模拟可靠性（图5C）。在观察行为的三个区域（图5E）期间，发现了模拟学习的重要信号，先验令牌值和后验令牌值之间的KL散度：dmPFC，preSMA和背侧纹状体。全脑分析显示，双侧前岛，双侧IFG，右上腹壁和下顶叶皮层以及前SMA延伸至背侧ACC（图5G）的令牌值的KL散度也是显著的。最后，在mOFC ROI（图5I）以及跨域mOFC和vmPFC的显著区域中（图5K）模仿可靠性也能被跟踪到。模仿的可靠性与右下壁的活动呈负相关（图5K）。在研究2（图5BDJLFH）中，绿色表示研究1的对应区域显著，灰色表示不显著。可以看到模拟学习中只有右侧TPJ不显著，而在模仿学习中所有区域都不显著。

图6 基于模拟可靠性的抉择性神经表示

由于研究2中选择模仿的显著性无法被复现，作者将模型进行了改进。作者定义了一种更简单的选择模仿形式（“一步模仿”），以便在给定的两个可用选项中，选择学习对象最近选择的游戏机（见文章方法细节部分）。此外，假定抉择仅由模拟可靠性来驱动，因此，如果模拟可靠性高，则被试将更有可能依赖模拟，而如果模拟可靠性低，则被试将更有可能默认选择模仿。按照预注册模型计算出的模拟可靠性变化得到了相同的三个ROI中：右vlPFC；左TPJ; 和右TPJ（研究2中p=0.055）（图6AB）。探索性连接分析还显示了ACC，双侧岛和上颌上回的显著区域（图6C）。

图7 模拟和模仿在观察期间更新信号

作者发现新的模拟信号显著性类似于预注册的结果（图7AB），对dmPFC，前SMA，右侧TPJ（研究2中p=0.054）,背侧纹状体有显着影响。探索性连接分析证实了这一点，并显示了双侧岛状，额下回和其他额顶区域的位置也具有显著性（图7C），与Neurosynth的“心理化（mentalizing）”脑区图重叠（图7D）。

但是，与模仿信号在预注册研究中未被复现相反，当前信号对学习对象当前行为与之前行为不同的情况做出了有力反应，这与“一步模仿”策略一致。该信号在preSMA ROI中发现，并在模仿过程中持续。连接分析显示了参与动作观察和动作准备的区域[preSMA]，双侧下壁小叶[IPL]，左运动皮层和左dlPFC；图7G），与Neurosynth“镜像”脑区图基本重叠（图7H）。

//总结
//

通过行为分析和fMRI分析，作者找到了足够的证据来解释人在进行OL策略的时候如何在两种策略（选择模仿和目标模拟）之间抉择。这一过程使用了多种计算模型来进行模拟，作者对比了各种模型，选择了两种策略混合并依靠模拟可靠性驱动加权的模型。通过模型对比，证明了混合策略比单种策略更能解释被试行为。

作者fMRI结果表明，在观察动作过程中，与每种策略相关的学习信号都在大脑中表现了出来。当选择与先前的试验不同时，前运动皮层和下顶叶皮层的活动增加，这可能反映了根据选择模仿当前首选动作的更新。这种活动与人类镜像神经元系统的区域基本重叠（图7H），这意味着模仿学习依赖于观察并重复动作。与令牌值更新相关的模拟学习在包括dmPFC，双侧岛叶，右侧TPJ，IFG和背侧纹状体的区域网络中表示。dmPFC和右侧TPJ可能通过表示学习对象的目标来实现心理化（mentalizing）（图7D）。其他区域，例如背侧纹状体和IFG参与到社会学习过程中：即专业学习或跟踪替代奖励预测错误。IFG和前岛叶在注意力和执行控制中发挥作用，这可能反映了模拟需要增加认知和注意力资源。
这些不同的信号表明，大脑会并行跟踪与每种策略相关的决策值，从而使个人可以在需要时部署其中一种策略。

//terminology
//

观察性学习（Observational learning）：通过观察其他对象的表现来学习
模拟学习（Imitation learning）：在本文是指，通过模仿其他对象过去最常选择的动来学习。注意：这里的概念与机器学习领域的imitation learning有所不同。
模仿学习（Emulation learning）：通过推断出学习对象的目标、信念、意图或隐藏的精神来学习。

写作：NCC lab 魏晨
校对：刘泉影
转载请先发邮件咨询：刘泉影，liuqy@sustech.edu.cn

文献来源

Charpentier et al., A Neuro-computational Account of Arbitration between Choice Imitation and Goal Emulation during Human Observational Learning, Neuron (2020), https://doi.org/10.1016/j.neuron.2020.02.028

警察殴打打人学生，舆论撕裂的背后

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

人类观察学习中对选择模仿与目标模拟的策略抉择的神经计算模型

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

生成图片，分享到微信朋友圈

人类观察学习中对选择模仿与目标模拟的策略抉择的神经计算模型

您可能也对以下帖子感兴趣