芥末翻Summary|通过大脑预测误差来进行社会学习
论文来源:Social learning through prediction error in the brain, npj Science of Learning 2, Article number: 8(2017);作者:Jessica Joiner 1, Matthew Piva 2,3 , Courtney Turrin 1 and Steve W. C. Chang.译者:马亮;审校:冯娜;整理:允菡
目前科学家们对人类元认知能力(简单来说即为自我反思的能力)有了相对明了的研究,然而却对大脑如何参照他人、参照自己而进行学习的机制知之甚少。而本文着重讲述了大脑参照他人行为、自己行为的心理现象与生理基础。
一、心理现象:
1.观察(简单模仿——替代强化——心智理论)
人类伴随着心理机制的发展,从完全的以自我为中心的生存状态到开始懂得观察周围的环境(举个例子:婴儿想吃糖,是通过大声宣告和哭;小孩子想吃糖,会微笑会撒娇来要糖吃)。与此同时,人类观察学习的能力逐渐觉醒。
当学习者观察其他智能体行为时,社会学习就此发生。刚开始,可能只是简单的模仿。慢慢的如果找到和自己相似的模仿对象,那么替代强化学习就开始发生,相对应的学习效率会相对较高。(比如榜样学习,当一个完全不会服装搭配的人,找到了身材和自己类似的穿搭博主,于是开始模仿学习,并逐渐找到了自己的穿衣风格)
题目中所提到的“社会学习”,重点在于“观察学习”。在这种学习中,不仅仅是一个主体简单观察另一个主体,而是更多以社会文化为核心,展现出社会学习与社会交往本身一样的多面性。比如,人们可以了解他人的不同方面,例如个性或社会环境下的心理状态。
观察他人之后,大脑开始处理信息,人类通过观察他人解构其心理状态(俗称“读心”),而解构他人信念的能力称之为心智理论(Theory Of Mind)。 心智理论可以称之为了解其他个体最复杂的一种形式,涉及大量其他参照内容及复杂的加工处理,它是指通过推测他人的心理状态,并根据该推测,合理理解和预测他人的行为的过程。
2.强化学习
在预测他人行为时,大脑特别需要用到强化学习。
强化学习:是多学科多领域交叉的一个产物,它的本质就是解决“decision making”问题,即学会自动进行最优决策。
在经济学领域体现在博弈论的研究;在计算机科学领域体现为机器学习算法;在工程领域体现在决定操作动作的顺序来得到最好的结果;在心理学领域,研究动物和人类是如何做出决策,以及行为是由什么导致的;在神经科学领域体现在理解人类大脑如何做出决策,主要的研究是奖励机制。
无论是人类还是非人类动物,以强化学习理论为基础进行各种学习和决策任务。
强化学习广受重视的根本原因是,生物体从环境中收集信息来学习并做出决定,这种方式被强化学习概念化,变得有章可循。
提示:深入了解强化学习概念化的内容,参照理查德·贝尔曼(Richard Bellman)的最优方程和动态规划模型,以下为简要内容:
强化学习需要人类在特定环境中通过根据不同状态或环境情境做出反应。其他必要组成部分还包括奖励信号、价值功能和策略。奖励结果是所有形式强化学习的中心,由人类在环境中的行动结果构成并形成一定数量。然后人类使用该奖励结果来计算价值函数,推测特定状态/环境的期望值以及特定状态和动作的连接。人类使用这些价值函数来开发一组优先行动,称为决策。环境模型是强化学习可选的部分,可以为生物提供状态转换的指导。(本段中“人类”可替换为“智能体”,因为这一理论同样适用于动物行为研究)
学习是通过比较期望奖励和实际奖励,在一定时间内两者过渡之后得到实现。在动态规划模型中,这个差异就是奖励预测误差,其重要功能是用于更新函数,并最终用于智能体与其环境交互的决策。
预测误差是原始学习模式的基本属性。简而言之,预测误差会计算人类在给定的事件或试验中预期发生与实际发生的行为差异。这也可以称为误差信号。人类会对自己的行为进行反思。
预测误差被有效地用作驱动自参照学习的信号。特别是计算预期回报与获得回报之间差异的奖励预测错误已被确定为神经生物学中数学学习规则的重要关联知识。接着让我们探究一下脑神经领域中社会学习的生理基础吧!
二、生理基础
预测误差不限于奖赏预测误差。
Schultz等人在1997年提出了“奖赏预测误差假说 (reward prediction error hypothesis)”。(1)初期,预期为0,奖赏为1, 误差为1,多巴胺细胞兴奋;(2)后期,预期为1,奖赏为1,误差为0,多巴胺细胞无反应;(3)突然去掉奖赏,预期为1,奖赏为0,误差为-1, 多巴胺细胞抑制。这就是多巴胺细胞编码“奖赏预测误差”的简单描述。
处于前扣带皮层的“预测神经元”可以控制多巴胺的浓度,让人成功预测一件事情的发生时就会产生多巴胺,比如听到铃声后得到了食物,除了食物获得产生的多巴胺以外还会额外产生一些,这时人就会更快乐;而当预测错误的时候则会降低多巴胺的分泌,人就会产生慌张的感觉;这样人就可以在食物之外产生额外的多巴胺得到额外的乐趣了。
预测误差甚至存在于大脑的感觉运动区域,这些区域处理诸如小脑和额页眼动区(关于预测误差的类型和相关脑区,参见表1)的精细调谐动作。
随着人们对复杂人类行为的了解,现在研究者们开始试图将参照自我学习的研究纳入参照他人学习范围中。对于社会中的个体来说,对特定事物做出适当的反应并正确地预测是必要的。正如预期的那样,了解他人以及自我的过程和信息是由几个与奖励相关的大脑结构所传递的。
接下来,文中涉及了关于大脑如何在强化学习和决策领域发出自我参照和其他参照信息信号的新见解。此外,研究者将重点关注预测误差信号,这些信号与行动和奖励结果相关,奖励结果又同社会学习联系密切。
神经科学领域的最新进展为运用强化学习机制向他人学习提供了各种支持。虽然纹状体长期以来一直是大脑中自我参照奖励信息和预测错误的焦点,但纹状体在学习中的作用并不限于自我参照处理。在一项关于多巴胺释放的观察性学习和替代性强化的研究中,当观察到另一只老鼠接受奖励,相比奖励品被投放至某个空盒子里时,观察鼠在腹侧纹状体中发出更多的声音并释放明显更多的多巴胺。这些结果将多巴胺释放与预测错误信号相关的作用扩展到了社会领域,暗示着类似的强化学习机制参与了他人的奖励结果的信号传递。
还有证据表明,人类功能磁共振成像研究中,纹状体代表其他参照(参照他人)奖励和预测误差。当由同伴进行社会评估时,先前与个体的积极的社交互动导致个体与积极的结果相关联,所述积极的结果与纹状体中的活动以及眶额皮层的活动相关。这表明社交互动同样可以激活大脑区域,通常表示主要强化因素的增强值。纹状体似乎也参与了奖励的相对评估,可将他人的表征与自己的表征加以比较。
对有关他人的各种预测误差进行编码是许多与奖励信息相关的大脑区域特征,这表明自我学习与学习他人或向他人学习之间存在紧密的生物联系。特别是这些结果支持这样一种观念:理解和学习另一个人的经验是根据共同的预测编码原则进行处理的,这些原则包括自我和其他领域的专业信息。
详细的大脑区域特征请查证原文:
前扣带皮层( ACC)与多种行为和认知状态的关系
前额叶皮层的许多子区域与决策有关高层认知过程的关系
颞顶联合区与心智化网络
三、总结
本文从心理学角度,揭示了人类社会学习的心理表征,同时又从神经科学角度揭示强化学习原理,从代表自我和他人信息的角度探索了社会学习潜在的神经机制。特别是,研究者讨论了大脑多个结构中的参照自我和参照他人的奖励预测错误类型,探究了如何有效运用强化学习算法调节社会学习。
黑尔(Hale)和(萨克思)Saxe提出,心智化可能是一个基本的预测过程。虽然研究者目前对描述大脑机制运行过程的理论解释并不完整,但神经学方面却有相应的展现。这一事实表明,一方面,用于社会学习和强化学习的共同学习机制是存在的;另一方面,其他参照学习的神经机制也可以用于自我学习的预测机制中,其中之一就是预测误差信号。将强化学习、决策的心理学和神经科学术语连接到社会领域可以促进研究者们开拓其他的研究道路。
本文涉及专业词汇:
Reinforcement Learning 强化学习
Time Discounting 时间贴现 (时间贴现是指个人对事件的价值量估计随着时间的流逝而下降的心理现象,它是行为选择理论的一个重要组成部分。人们根据行为结果的价值抉择行为,对行为结果价值的认知会受到时间的影响。)
social learning 社会学习
observational learning 观察学习
reward prediction error signal 奖励预测误差信号
Theory of Mind(ToM) 心智理论
原文链接:https://www.nature.com/articles/s41539-017-0009-2.pdf
声明
本翻译仅作了解之用,并非用于学术研究或商业决策。芥末堆海外翻译社群的小伙伴们力求将关键理念与思想更广泛地传播至中文区域,故部分表达可能与原文有所差异。如需使用,请点击阅读原文查证原文。