社会焦虑和不稳定环境下的动态社会强化学习

Original Rainy Q 老李家心理串串 2022-10-07

Hello，

这里是红枪总队，我是Rainy Q~

1. 引言

人际交往是不确定性的、不稳定的。有时，你会跟你最亲密的朋友吵架，你童年的伙伴到现在也不可能都跟你保持着亲密联系。因此，适应性的社会行为需要学习社会奖赏和惩罚的概率的能力，当这些概率改变时，能够更新相关的心理表征。

强化学习（reinforcement learning，RL）指的是一个行为主体学习如何预测和优化他/她行为的过程，在这种环境中，采取行动会导致奖励或惩罚。

图1 强化学习模型大概示意图

异常RL与许多心理疾病有关，包括重度抑郁症、精神分裂症、社交焦虑障碍和成瘾，在神经功能、结构和功能连接和行为都有研究。例如，在一项重度抑郁症的研究中，快感缺乏与调节行为作为奖赏功能的能力减弱相关，这是由于多巴胺能信号的减弱和奖赏预期的降低造成的（Whitton et al.,2016），考虑到抑郁症与焦虑障碍的高共病率，奖赏敏感性的降低或许也是焦虑障碍的特点。

社会焦虑个体加工社会信息的方式不同于正常人，包括对奖赏和惩罚信息的加工。

研究者认为，社交焦虑可能对奖赏刺激具有低敏感性，对惩罚刺激具有超敏感性。对大多数人具有奖赏性的社会事件在社会焦虑群体中的加工可能不同，神经成像的研究表明，高社会焦虑的人在进行社会奖赏预期时的伏隔核（对应大脑的奖赏系统）活动较迟钝。此外，社交焦虑群体会回避高概率的负性面孔（Abraham & Hermann, 2015）、过高地估计惩罚出现的概率（Koban et al.,2017），并且与恐惧面孔建立的恐惧习得更难消退（Olsson, 2013）。

然而鲜有研究考察了社会焦虑个体是如何在不稳定环境下更新概率的。这里的不稳定性是指奖赏和惩罚的概率变化。正常来说，越不稳定的环境，人们的学习速率（learning rate）应该越快。社会焦虑的群体的学习速率可能出现了异常，这取悦于个体是否更新奖赏或惩罚的概率，环境不稳定性的程度以及个体的焦虑状态。

综上所述，本文研究的问题是社会焦虑症状的个体差异如何预测人们在不稳定社会环境里学习和更新社会奖赏和惩罚概率的能力。

基于社会焦虑患者对奖赏的低敏感性和惩罚的超敏感性，作者假设，

①更高社会焦虑的人会更少地丢球给惩罚角色，也更少丢球给奖赏角色，相对地更多丢球给中性角色。因为避免惩罚者可以提高表现（接到更多的球），但是不选择奖赏者又会损害表现，所以社会焦虑对整体接球数的主效应不可预测。

②在学习率上，当惩罚者变得更具奖赏时，更高社会焦虑的人调整地更慢，当奖赏者变得更具惩罚时，他们调整地更快。

2. 研究方法

2.1 被试：

共222名被试（mean年龄=34.89岁，SD=10.95，107名女性，114名男性，1名保密）。

2.2 实验任务：不稳定的社会学习任务（Volatile Social LearningTask）。

通过改进的Cyberball范式来测量社会RL能力。被试与三个电脑玩家玩接球抛球，一个玩家是奖赏者，丢球给被试的概率是0.7，一个是惩罚者，概率是0.1，一个中性玩家，概率是0.33。被试的任务是最大化接球的数量。每个block有100次丢球，每一次结束后会发生一次角色转换，共有4个block。

2.3 参考指标：

①被试丢球给每个玩家的数量。分为a)学习率，将每个block分为4段，每个时间窗为25次，加重叠5次）；b)任务表现：被试接到球的次数。

采用Q-learning算法计算学习率，或称为被试相对于之前所有试次中学习的经验，给予新信息的权重。

计算每次丢球的预期函数（Q），包括状态（s），指当前球的位置，和动作（a）指球丢给了谁。在每个时间点，状态-动作配对的Q值会通过预期错误和学习率（α）的变化而变化，如下等式：

预期错误占得比重越大，学习率越高，相反，个体对当前预期Q依赖越大，学习率越低。

δ值固定为1，因此Q值直接对应被试丢球给每个角色的可能性。

3. 结果

3.1 描述性统计：

焦虑指标SIAS（M = 24.93, SD =18.38）和抑郁指标DASS-21（M = 4.65, SD = 5.66）显示出中等到强烈的正相关。

3.2 任务表现：

存在block内分段位置的主效应，即随着block的进行，被试接到球的次数更多。Block数也存在显著的立方效应，在block1接到球的次数最多，block2最少，block3又开始增加，block4又下降。

图2 任务表现折线图

3.3 投球给玩家的表现——社会焦虑的指标：

作者做了一个模型来预测角色×社会焦虑对被试丢球给相应玩家次数的影响。

当前角色显著预测了被试丢球给玩家的频率（惩罚少于中性，奖赏大于中性）；

过去角色显著预测了被试丢球给玩家的频率（惩罚少于中性，奖赏大于中性）；

角色和分段位置有交互作用：

（1）随着block的进行，被试丢球给奖赏玩家的次数越来越多，丢球给惩罚玩家的次数越来越少（都是相对于中性玩家）；

（2）随着block的进行，被试丢球给上一个block是奖赏性角色而这个block不是的玩家的次数越来越少，丢球给上一个block是惩罚性角色而这个block不是的玩家的次数越来越多。这表明，以前学习的奖励值（reward values）的影响随着当前奖励值的经验的增加而减弱。

被试的SIAS分数和被试过去的角色也有交互，如预期一样：高社会焦虑的个体丢球给过去是惩罚者的玩家的次数更少（相对于中性玩家），这与预期的高对社会惩罚的高敏感性一致。但是在奖赏者中不存在这个效应。

综上所述，在一个block里面，丢球给不同玩家的差异会越来越大。高社会焦虑症状可以预测个体丢球给曾经是惩罚者的次数更少，表明高社会焦虑个体将社会惩罚预期朝着更中性会更有益的方向发展的更新的能力更弱。

3.4 学习率：

如预期一样，学习率在不稳定环境（block2-4）比在稳定环境（block1）更高。没有其他参数的交互作用。这表明，基础学习率不受焦虑状态的影响并且在稳定和不稳定环境之间学习率的转换也不受焦虑状态的影响。

与假设“奖励者变得更有惩罚性之后，社交焦虑的特质是学习率的更快调整”一致，SIAS，block里面分段的位置和过去角色是惩罚者之间存在三因素的交互作用。当奖赏者变成惩罚者之后（与惩罚者-惩罚者）对比，高焦虑的个体（与低焦虑个体对比）在随着block的进行的学习率更低。这表明，在角色没有发生改变时，更焦虑的个体对变化的可能性过度警觉。

位置和过去惩罚者的角色也存在显著的交互作用（与中性角色变成惩罚者、惩罚者-惩罚者对比）。当中性玩家变成惩罚者时，随着block的进行，学习率更高。相比之下，惩罚者仍是惩罚者角色，在整个block里面学习率的下降幅度更大。

图3 学习率示意图

4. 讨论

该研究结果验证了社会焦虑具有对惩罚高敏感性的特点，更高社会焦虑的个体更少可能地把球丢给上一个block是惩罚者的玩家（与中性玩家相比），表明他们在经历社会惩罚之后更新奖赏预期的速度更慢。然而，作者没有发现能够验证假设社会焦虑对社会奖赏低敏性的结果。

学习率会随着社交焦虑和角色转换类型的不同而不同。当惩罚者没有改变时，随着时间的推移，社交焦虑程度越高的人比焦虑程度较低的人学习率下降的幅度更小。而当奖励者变成惩罚者时，社会焦虑程度越高的个体学习率在一段时间内下降的幅度更大。这些结果表明，社会焦虑的个体可能不会适当地降低他们学习率以应对确定的、更稳定的环境（如惩罚者角色没有改变），但当奖赏者变成更具惩罚性时可能会快速制定政策以应对。

从现实生活中想象一下这个情境：想象有2个人，一个社会焦虑一个不焦虑，他们在每天早上都搭同一辆巴士去上班，这个情况已经有几个月了。而这辆大巴的司机早上都比较暴躁，尽管在乘客上车时会给予微笑但是路上还是会做出一些很粗鲁的言论。这个不焦虑的人对司机的粗鲁行为无动于衷，几乎没有注意到她举止的变化，因为他已经开始认为司机不友好，他不关心司机对他的看法。另一方面，社会焦虑的人更关心社会评价，对每个微笑和粗鲁的话语都保持警惕，每天更新对司机的心理表征。尽管环境的不稳定很低，但是细节更重要，社交焦虑的人学习率仍然很高。

5. 展望

①在第2和第3个block，一个角色不动另外两个角色变换会造成2和3之间的不稳定性更差，这对结果也有一定的影响，2和3之间的变化更线性。

② VLST的一个重要局限就是它无法区分奖赏敏感性和奖赏学习。值得注意的是，我们不能断定所观察到的影响是由于对社会奖惩的有偏见的评估，还是由于对学习价值的有偏见的更新。

③只考察了被试的特质焦虑而没有考察状态焦虑、任务期间的感知排斥（种族和社会经济地位也未评估）

④只是线上完成，没办法严格控制实验环境。

6. 结论

这项研究采用了一个新颖的、修正的cyberball版本去评估社会焦虑症状对个体在不稳定的社会奖赏和惩罚概率中更新心理表征的影响。更高社交焦虑的被试更少可能地更新他们对之前惩罚玩家的负面预期，这种更新偏见可能促进了社交焦虑障碍的回避行为和症状维持。

以上就是本期的文献总结，希望大家有所收获~

后台回复关键词“社会焦虑与强化学习”，即可获得相关文献的英文原文和中文解读哟~

参考文献

[1]Abraham, A., & Hermann, C. (2015). Biases in probabilistic categorylearning in relation to social anxiety. Frontiers in Psychology, 6,Article 1218.

[2]Beltzer, Miranda & Adams, Stephen & Beling, Peter &Teachman, Bethany. (2019). Social Anxiety and Dynamic Social ReinforcementLearning in a Volatile Environment. Clinical Psychological Science. （本文）

[3]Koban, L., Schneider, R., Ashar, Y. K., Andrews-Hanna, J. R., Landy,L., Moscovitch, D. A., . . . Arch, J. J. (2017). Social anxiety ischaracterized by biased learning about performance and the self. Emotion, 17,1144–1155.

[4]Olsson, A., Carmona, S., Downey, G., Bolger, N., & Ochsner, K.N. (2013). Learning biases underlying individual differences in sensitivity tosocial rejection. Emotion, 13, 616–621.

[5]Whitton, A. E., Treadway, M. T., & Pizzagalli, D. A. (2016). Rewardprocessing dysfunction in major depression, bipolar disorder and schizophrenia.Current Opinion in Psychiatry, 28, 7–12.

作者：Rainy Q

排版：Rainy Q

沉湎于过去：失眠障碍患者易对过去情绪产生固着

联想性恐惧和回避学习在焦虑障碍中的作用:差距和未来研究的方向

PNAS | 催产素提高高功能自闭症的社会能力

他人在场体验疼痛：对老年人群的结构性研究