期望、行为和奖励:在不确定和未知的游戏中,获得确定的快乐
大自然让我们热爱冒险,从而能更好地生存和繁衍。人们要敢于冒险,才能获得更大的收益。虽然冒险就意味着未知,但不确定的奖励会格外的诱人,也能在关键时刻帮助我们做出决定。
在长期的进化和演变中,每个人都会对自己行为的不确定结果抱有各种期待,这种期待和幻想的产生,也会伴随着愉悦的出现。在期望还没有实现前,随着它的增加,愉悦就已经会不断地上升。而一旦不确定的期望获得满足,对应的行为就会得到更强的巩固。
当奖励和期望的范围是有限的,固定目标的无法获得反而会刺激人们产生克服不确定性的需求,并持续地强化这种行为。
若奖励的目标或范围是无法预计的,或是每一次获得的奖励都是超出预先设想之外的,人们获取满足和快乐的方式,就跳出了系统内的约束,从而转向了对未知的不断探索。
大多情况下,我们总是在用新方法解决旧问题。概率可以给予我们期望并产生愉悦,但又会将这种快乐约束在有限目标的无尽尝试中。
当我们跳出概率的固有约束,就能在创造和探索丰富的可能中,获得属于自己的快乐与满足。
通过我们已有的认知逻辑,世界中一部分的信息是可知,其中虽然有一部分信息是我们暂时不知道的,但随着对世界认识的不断增加,这部分信息是可以被我们所知道的。对于这一类信息,我们的认知方式是离散的,也就是通过概率去获得信息,并做出对应的反应。
同时,由于逻辑系统自身的限制,我们无法通过这些系统认知到世界中的其他信息,因此这部分信息是我们无论使用任何方法是都无法知道的。对于这些信息,我们只有跳出现有的逻辑系统才能获得。
当事件的发生与否是不确定的,这也就是事件的发生概率。我们知道事件发生的结果数量是有限的,只是不确定每次发生的结果是什么。为了能更简单的理解可知信息的不确定性,我们使用期望来描述。
因此,我们的期望来源于“可知但不确定”的事件,而不是“可知但未知”的事件。
对于“可知但不确定”的事件,我们对于事件发生的结果有着明确的认知,从而会预先理解到每一个结果,对其产生情感上的期望,并带来多巴胺和快乐。
而对于“可知却未知”,由于我们无法明确每一个结果是什么,因此每一次出现的结果都是 over expectation,从而会给人们来带另外一种情感上的刺激,也就是另外一种快乐。
进一步来看,人们对期望实现的不确定,不仅体现在多巴胺所带来的快乐和反馈机制上,也会体现在人们的决策机制上。
在行为经济学中,2002 年诺贝尔经济学奖得主丹尼尔·卡尼曼告诉我们:在必然会发生损失的情况下,人们的行为会表现出风险偏好;而在必然会受益的情况下,人们的行为反而表现出风险厌恶。
同时,人们在面对小概率的损失时,则会倾向于风险规避,而面对小概率的获得时,人们又倾向于风险偏好。
这样的决策方式,也对经济学中的理性人假设提出了挑战,它指出我们的决策并不是我们想象的那么理性,我们的预期会通过影响情感从而改变纯粹理性的决策。
消费者,或称为玩家,都是趋利避害的动物。虽然客观上的利其实是食物、生存条件等,但人类主观上的利全都是愉悦感。人们长期的演变中,进化出了一种获取快乐的机制,不同的行为会激发大脑中负责提供奖励的那部分组织分泌多巴胺,从而让人们在主观上觉得很开心。这种神经机制,也会将人们的行为与快乐所联系在一起,促使人类实施更多这样的行为。
同时,不确定性也和多巴胺建立了对应的激励关系。在随机性的结果出现前,人们往往对结果有期待,这种期待会随着行为的增加而累积。当期待被实现时,相比于确定的结果,不确定性会使人们分泌更多的多巴胺,从而获得更多的快乐,这会使得反馈机制得到更稳固的强化。
只要人们对于未知的有期待,快乐就会因此而产生。如果个体对行为结果没有期待,就算事情的结果对个体再有适应的意义,也很难让其持续地进行对应的行为。
然而,对于无法预料到的结果,我们无法产生期望,从而无法进行上述的反馈机制。意料之外的结果也会让我们通过类比和联想的方式,从已有的快乐中找到最相似的一种,产生对应的多巴胺和快乐。
无论是已知的期望还是未知的刺激,仅存在幻想是无法持续地驱动人们做出对应的决策和行为。虽然人们追求快乐,逃避痛苦;追求确定,逃避未知,但期望和不确定性却构成了人们对某个事物的情感依赖。
在经典的条件反射实验中,巴甫洛夫对狗在不同情况下的唾液分泌进行了测量,发现狗在闻到、看到、靠近和吃食物的时候,都会分泌唾液。他认为狗的这种反应是本能且固有的,将食物称为无条件刺激(unconditioned stimulus,简称 UCS),也把产生的唾液分泌称为无条件反射(unconditioned reflex,简称 UCR)。
在另一组实验中,巴甫洛夫给狗食物之前,会开启一个节拍器,然后每次都重复这个操作,狗在听到节拍器而没有食物时,也会分泌唾液。之后,他又将节拍器换成了铃声、哨子等,也都发生了一样的结果。但如果只进行各种刺激,而不提供食物,狗也会逐渐地不分泌唾液。
在将无条件刺激(食物)和引起探索性反射的中性刺激结合后,狗就能对某一种刺激形成条件作用。铃声就成了条件刺激(conditioned stimulus,简称 CS),由铃声引起的唾液分泌就是条件反射(conditioned reflex,简称 CR)。
实验的结果说明了,当中性的刺激和无条件的刺激结合后,动物能逐渐地学会对那个中性刺激做出反应。这种刺激可以通过重复的条件刺激来强化,也可以通过只给条件刺激而不提供无条件刺激来削弱甚至完全消失。
在巴普洛夫的条件反应学说被提出后,早期的行为主义实验几乎都在尝试将某种刺激与生物的某种行为关联起来,从而观察与分析对应的反应。
更值得一提的是,条件刺激下的反应不仅是生理上的,也是心理上的。当生理上的感觉伴随着条件刺激发生时,动物会非条件性地产生不同的情绪,比如开心、难过、焦虑、害怕等。在这种刺激重复发生几次后,即使生理上的感觉没有真的发生,这种条件刺激也会让人们产生对应的情绪。
一位来自哈佛大学的心理学教授斯金纳(Burrhus Frederic Skinner),通过一个实验将这种生理上和心理上的条件性刺激,同时变得可操作化。他设计了一个箱子,里面有一个可以按钮,同时在箱子的底部摆放着一个是食物盘。
在箱子的外部,按钮与提供食物的装置相连,只要箱内的动物按下按钮,食物就会出现在食物盘内。然后他将一只饥饿的老鼠放在箱子里,当老鼠按下按钮时,它就能获得食物。
同时,当实验人员不再投放食物,老鼠按下按钮也不会获得食物时,老鼠已建立的行为习惯就会很快地消失。在另外一个对照实验中,实验人员将食物的出现机制改成了随机掉落,老鼠同样也学会了不停的按下按钮。即便是按下不确定的几十次才会掉落一个食物,老鼠仍然会在很长的一段时间里,保持这一行为习惯。
因此斯金纳认为,动物不仅会受到刺激而给出反应,还会受事后刺激的持续影响;只要动物明白:想要获得奖赏就需要完成所需的条件,他们的行为就可以被操作和影响。斯纳金同样也专门研究了行为模式的消退速度。他发现,相比起固定间隔的刺激与操作,随机间隔的刺激会让个体以最长的时间持续发生某种行为。
除此之外,斯金纳也提出了强化物的概念,用以描述各种需求,它们能让个体被不断刺激从而强化对应的行为。在实验中,如果我们把老鼠按下按钮视为一个想要其不断执行的操作,那作为奖励的食物就是“积极强化物”。而当个体为消除某种刺激而做出某种重复的行为时,这个刺激就叫“消极强化物”。
一级强化物主要解决人的基本生理需求,比如呼吸、进食、休息等,它们具有较强的边际效益。同时,当人们对于这一类需求的满足感达到一个上限后,短期内,一级强化物对行为的刺激和强化作用将会大幅减弱。
二级强化物(刺激强化物)本身是一个中性刺激,一开始对行为没有强化作用,但它可以和一系列的一级强化物产生关联,从而发挥作用,比如金钱本来只是一堆纸或者数字,但它可以基于货币的属性换取更多人们想要的东西。
当二级强化物和一级强化物组合后,二级强化物所产生的边际效益会减弱很多,从而人们会在更长的时间里为这种强化物进行付出。
另外,斯金纳还做使用鸽子做了一个有趣的实验。在鸽子每次成功转圈飞行后,他给鸽子提供食物进行奖励,让鸽子学会了转圈。
当他不定时地进行投喂时,发现其中有几只鸽子会在投食的食物会做出某些特定动作,认为这些动作会和食物的出现有一定管关联,比如点头、摇摆、将头伸向某个固定方向等。这种迷信的行为,其实在人类身上也经常出现。
人们的行为在不断地被强化过程中,也会在心理上获得一系列的情绪波动,从而产生心流般的愉悦体验。这些理论被提出后,被我们广泛地应用在各行各业,产品设计者们使用这些方法让用户和玩家感到持续的快乐。
在消费者购买盲盒之前,厂商就提供了对应的幻想,告诉消费者他可能获得的对象。在打开盒子之前,消费者的期待值会一直累加,并在打开盒子的一瞬间达到顶峰。随后而来的只有两种情况,没有获得期望中物品的消费者,收获了失望但立马想要翻盘;期望实现的消费者将会获得巨大的快乐,并想要让这种快乐继续下去。
在感性驱动下,消费者除了将盲盒视为满足自身占有欲的载体,更是将其当作展示自我优势的实现方式。在此基础上,他们也会和其他人进行炫耀和比较,从而获得进一步的快感和满足。
事实上,在 20 世纪初,糖果生产商们就推出了具有蒸汽挖掘机外表的糖果贩卖机,也就是最原始的抓娃娃机,人们只要按一下,百分之百会有糖果出来。后来,当糖果机在美国和日本流行时,人们能抓的东西就不仅仅是糖果了,而是会有很多小型的玩具。20 世纪中后期,经济的发展,也让娃娃机中的物品加入了各种各样的文化和娱乐形象,风靡一时。
如果说玩家在体验娃娃机时,能够精准地通过按键控制机器的横纵移动来抓起商品,是一种可以被训练的技术,那么之后出现的扭蛋机,则是在游戏化的体验中真正引入了抽奖概念。扭蛋机前的宣传卡会清楚地展示里面卖的是什么,只要玩家投入硬币然后扭动开关,装有图示中随机一款玩具的扭蛋就会从出口落下。
虽然通过不确定的获取来完成物品的收藏能给人们自己带来持续的满足感,但人们更关注是否能使用物品来获得人与人之间的比较优势。当收集和养成、对抗等应用型功能所结合,人们就会更将其视为自己实现差异化的方式。
在信息时代,收藏对象的实体载体在完成数字化的同时,也承载了更加多样的关系。电脑游戏诞生后,玩家之间的交易变成了玩家和游戏厂商之间的交易,也就从交换式卡牌(TCG, trading card game) 慢慢的变成了收集式卡牌 (CCG, collectible card game)。
当用户使用这些数字内容进行交互时,这些关系会以更高的频次和更快的速度对人们的期望进行刺激、反馈和满足,并在这样的过程中建立越来越稳固的情感链接。
对于中国玩家来说,大部分人最早是通过《扩散性百万亚瑟王》这款游戏接触到“抽奖+收集+应用”的模式。在过去十年里,日本动漫对于国内市场的影响逐渐增大,玩家和用户在接受二次元风格的游戏内容时,也推动了后续国内一众厂商选择了这种以抽卡为主的 F2P+IAP 模式。
随着这种商业模式在中国游戏市场成为主流,传统的 copy sales、内容直购等模式也在逐渐向抽奖靠拢,比如 RPG 游戏《魔兽世界》中的抽坐骑、FPS游戏《CS:GO》中的抽枪械皮肤等。
当实体对象变成了数字内容,不仅解决了供给的限制,也降低了流动的障碍,从而将收集本身变得更有效,数字技术也将内容的其他属性实现了更多元化的呈现。
设计者们不仅在卡牌本身内容上,也在角色、装备、技能等游戏元素中加上了不确定性,让玩家不断地产生预期,从而在一次次地靠近预期过程中,获得不确定的快乐。
同时,为了更好地将斯金纳的强化理论应用在游戏中,设计者们也将集换式的内容加上了如同对抗、养成、社交等游戏机制和玩法,不仅通过其他玩家强化自身和数字内容的关系,也通过数字内容本身进一步地将人与人之间的各种需求放大。
这些常见的抽卡类游戏,就是基于人们的反馈机制,满足玩家这种由不确定和预期产生的快乐。当玩家预期自己能获得想抽到的角色时,大脑就已经开始分泌多巴胺,而不是真的等好事情发生才开始分泌。
对于人们来说,“差一点就赢/获得”引起的多巴胺分泌程度只比“真的赢/获得”稍低一点而已,并且“差一点就赢/获得”为人们提供了不确定的引导,从而不断地强化玩家的行为。
玩家的期望就是随机出现的强化物,玩家偶然实现一次期望,接下来就会渴望下一次实现,如此循环往复。
在人工智能领域中的强化学习,不仅是心理学和计算科学交叉的产物,也是我们通过机器了解自己的重要方式,其核心在于让机器通过通过正确的行为来获得正确预测的奖励。
虽然机器和人们在预测未来的时候总会发生偏差, 但事实上我们从自己身上发生了可以通过多次执行来不断地让我们的行为逼近正确。在强化学习的理论中,虽然我们无法获得绝对准确的预测,但我们可以通过环境的反馈不断地调整策略。
当我们让目前行为和预期行为所带来的奖励预测误差逐步趋近于零,这就达到了强化学习的最优状态。
在经典的强化学习理论中,机器最终学习的目标不是获得最大的奖励, 而是获得最小的预测误差,并可以很好地解释心理学中的条件反射现象。同时,它也告诉我们快乐并不是来源于奖励的绝对值,并不是获得越大的奖励就会越快乐,其实我们要的是奖励的相对变化预期。
即使如此,经典的强化学习理论默认了未来发生的奖励是一定的,而没有考虑不确定的预期。为了解决这个问题,分布式的强化学习理论指出,我们和机器不仅需要考虑未来奖励的期望,同样要考虑期望的整个分布。它代表了不确定性的大小也会影响到决策的发生,我们需要将期望的分布作为奖励的一部分。
当不同的个体具有不同的对未来的奖励预期分布,那么它在正向或负向的误差反馈中会得到不对称的刺激,从而表现出具体的性格。根据这个想法,Deepmind 也对多巴胺神经细胞进行了实验,观测到了性质相同的现象:不同的细胞对正向或负向的预期奖励具有不确定的反应。
因此,我们的神经系统会不停地预测此刻的行为和下一刻奖励的关系。当这种预测出现了偏差, 就要通过一个神经递质,来让所有做出预测的神经元改变预期,而这种神经递质就是多巴胺。
只要我们有行为,神经系统就会基于我们的认知产生预期。事实和预期的绝对偏差将会产生多巴胺,从而改变我们的下一次预期。如果这个预期恰好是我们所需求的,预期的偏差和调整就会给我们带来所谓的快乐,即源于不确定的快乐。
人类十分擅长使用现有的逻辑系统识别一系列的现象,并尝试去发现与总结规律,以至于有时我们会经常误认为,在完全随机的事情背后也存在规律。
当某种行为提供了一种反馈,我们总是会不由自主地将它与其他事情联系起来,非常希望找到一个与结果相关的原因,从而弄明白怎么做才能实现我们的想法、获得想要的东西。
期望和不确定性确实会给人带来实现愿望的快乐,但斯金纳的理论同样告诉我们,如果我们通过“假想”的推理或仪式获得反馈,很可能会让我们进入通过自我强化来获得愉悦的误区。
我们想要的愉悦感,其实是奖励的一种表现形式。这种感觉来源于做出的行为和对应的结果之间的关系。然而,奖励不等同于愉悦感,也不等同于快乐。
虽然愉悦感会伴随多巴胺的出现而产生,但准确地说,多巴胺并不是奖励本身产生的,而是来源于我们对奖励的期望和实际发生情况的差距。
在行为的参与下,这种奖励的预测误差会引起多巴胺的释放,并在反馈机制的作用下,促使我们发生更多的行为将偶然的奖励变成必然。因此,从不确定中产生快乐的路径为:确定的行为,以不确定的发生概率,发生确定的可能结果。
这就是在探索和发现未知过程中,通过获得超出预期的结果而带来快乐和满足。
我们在游戏中进行探索时,会进入到不同的地图、遇到不同的怪物和 NPC、产生不同的对话和故事。但目前大部分的这些内容都是靠人力产出的,从而在投入产出效率的约束下,无法在严格意义上给予玩家持续提供超出预期的体验。玩家在逐渐熟悉这些有限的内容时,就将自己的期望快速地消耗完毕,从而失去了心流体验。
很明显的一点是,如果我们想给玩家或用户带来持续的超越预期,并让其感到持续的快乐,使用传统的技术、生产方式是永远无法实现的,人们消耗内容的速度会远大于生产内容的速度。
因此,在人工智能的协助下,人们才有可能生产出能够持续地给用户提供超出预期的结果,进一步可以在条件反射机制上,通过将这种结果作为神经系统的奖励,来鼓励人们去探索未知,去尝试新的体验。
事实上,涌现式体验就是在这个方向上的一种尝试,从康威生命游戏 (Conway's Game of Life) 到荒野大镖客 2(RDR 2),基于简单规则下的复杂系统为我们提供了获得快乐的另一种方式。
在每一次的交互中,即使我们执行同样的行为和操作,数字内容也会给我们提供不同的反应,这种反应同时还是我们无法进行预期的,自然也就不存在概率问题。
我们不仅会因为预期的超越而感到快乐,也会很迷信地尝试从结果反向寻找规律,并在寻找的过程中因为再次超越预期产生更多的快乐。
无论是科学还是游戏,人们在骨子里似乎就藏着对完美和完整的追求。事实上,正如绝对的完美是不存在的,我们也无法对未来做出绝对准确的预测。
大自然让我们热爱冒险,从而能更好地生存和繁衍。人们要敢于冒险,才能获得更大的收益。虽然冒险就意味着未知,但不确定的奖励会格外的诱人,也能在关键时刻帮助我们做出决定。
虽然我们能通过重复地做某件事情,来尝试建立认知并获取世界的规律,但单向前进的人生使得我们在每一次的决定中都无法完全还原所有因素,我们也因此会更加在乎不确定性的识别和期望的管理。
在以游戏和社交为主的数字世界中,当我们一次次地产生期望、获得反馈和调整期望时,我们不仅获得了认知,也收获了快乐。事实上,在短暂的生命里,如何获得更多的快乐也成为了很多人想要解决的问题,而在大多情况下,我们总是在用新方法解决旧问题。
概率可以给予我们期望并产生愉悦,但又会将这种快乐约束在有限目标的无尽尝试中。当我们跳出概率的固有约束,就能在创造和探索未知中,获得更加深层次的快乐与满足。
关于 rct
rct 成立于 2018 年,Y Combinator W19 成员,汇聚了来自人工智能、游戏、设计和商业化等领域的人才。rct 致力于使用人工智能打造下一代交互式娱乐体验,我们的使命是帮助人类更多地了解自己。至今 rct 已获得来自星瀚资本、Y Combinator 和 Makers Fund 的投资。