错误的奖励，正确的惩罚

Original CxEric CxEric的读书与投资笔记 2022-10-02

文/CxEric

激励与对错，是两组截然不同的概念，但人经过漫长训练后很容易混淆，误将奖励≈正确，而将惩罚≈错误。

这似乎是一种根植于进化过程的本能意识：

得到好处的，一定是对的，重复它；

得到坏处的，一定是错的，避开它。

生物本能很大程度就是这样运作的，就像芒格所说，大自然存在一种普遍的伟大算法——重复有效的行为。

但这显然存在一些误解，因为在逻辑上我们不难明白：奖励/惩罚、正确/错误，其实是两组概念，它们可以得到2X2=4种组合：

正确的奖励、正确的惩罚；

错误的奖励，错误的惩罚。

这意味着，

如果你得到了奖励，你可能是对的，也可能是错的；

如果你得到了惩罚，你可能是错的，也可能是对的。

奖惩与对错之间，没有一对一的映射关系。

甚至有时候，它们彼此毫无关系。

这多少有点反直觉，但我们就是生活在这样一个世界。

如果你要求这个世界在给予奖励、惩罚时，必须在时机、方向、力道上都正确无误，那你就对这个世界的运行逻辑提出了过分要求。

毕竟，连人类自己设计的规章制度，都时常错漏百出，你又如何能要求大自然、命运之神运作的奖惩模式，能够遵从人类的理解方式呢？

不要忘记这个世界有多混乱。

什么叫错误的奖励？

就是你做错了事情，甚至什么都没做，却得到了很大的奖励。

它容易让你高估自己的能力、方法、价值观，让你在某条错误的道路上拔足狂奔，拒绝回头。

比如说，守株待兔。

什么叫错误的惩罚？

就是你明明做对了事情，却依然莫名地被胖揍一顿。

它容易让你质疑自己的能力、方法和价值观，驱使你放弃正确的做法，采纳错误方案，直到不久再被揍一次。

这多少会有点让人抓狂，毕竟我们都期待自己居住在一个有“逻辑”的世界。

就像在游戏中，如果做对了，我预期会得到奖励；

就像在学校里，如果答对了，我预期会得到分数。

但生活的另一面，是复杂、无序、随机和多变量。

作弊是错的，但有人以此得到更高的分数，还没人告发他；

诚信经营是对的，但你可能会承担更重的经营成本，客户还怪你卖太贵。

你能怎么说呢？

我当然不是鼓励作弊、否决诚信，只是我们都需要明白在生活中：

奖惩无法代替对错；

奖惩难以揭示对错。

关于“错误的奖励”，我最喜欢的例子是【守株待兔】，故事出自《韩非子》：

宋人有耕者。
田中有株，兔走触株，折颈而死。
因释其耒而守株，冀复得兔。
兔不可复得，而身为宋国笑。

这个世界上是否真有蠢兔子，会奇怪地一头撞死在树桩上，然后让你白捡一次便宜？

我不敢说这个可能性是0.00%。

但如果被你遇到了，你最好不要误以为：这一切源自你的努力。

白捡一只兔子，是一种奖励，但你得到这个便宜，仰赖的是随机性、兔子的愚蠢和大自然的bug，而与你的体能、姿势、心态、技巧无关——事实上，你没有做任何可称得上“正确”的事情。

如果你无法理解这一点，你会将捡兔子归功于自己的能力、方法或人品，以此夸耀于乡里，传授方法于众人，然后写下网红文章《我如何0成本捕获一只兔子》，直到某天饿死或被门徒喷死。

这就叫贪天之功——明明就是随机性的功劳，你非要说是你能力过人。

那么，宋人偶然间捡到兔子，是好事还是坏事呢？

零成本的便宜，当然是好事吧

——但如果宋人从此荒废劳作，整天眼巴巴等兔子呢？

一个错误的奖励引起错误的认知，

一个错误的认知引发错误的行为。

接着，

重复错误的行为又固化了某种错误的认知，

乃至伤痕累累，

不撞南墙终不悔。

这又好像是坏事了。

我想，宋人如果从未遇到过那只兔子，他也许会过上更好的生活。

所以这个故事告诉我们，如果某一天，你碰到傻乎乎的兔子，怀着感恩的心，吃了就吃了，但不要混淆这背后的缘由，不要贪天之功以为己有。

如果你无法保持这种清醒，或许最好的安排是：你永远不要碰到这种“好”事。

不然，你会成为守株待兔的人。

你会荒废你的田地，耽误你的时间，直到某天被人编成段子写进书里。

某个意义上，A股不缺“守株待兔”的人。

我说守株待兔的时候，不是夸他们具备足够的耐心，愿意静静地等待结果到来。

我说的是：

因为某一次偶然的收获，他们就认定自己的方法正确可持续，因而念念不忘地蹲在树桩边上，田也不耕了，活也不干了。

我遇到过一些20年+的老股民，虽然整体亏掉了很多钱，但他们依然对A股恋恋不舍，魂牵梦萦，最主要的心理因素是他们深刻地记得：自己曾在牛市里赚过大钱。

“爱过”算什么，

“赚过”——才让人撕心裂肺，刻骨铭心。

于是多年过去，哪怕总体上亏得一塌糊涂，他们的眼睛依然闪烁着期待的光：

请再来一次牛市。

“狗无法忘记某次偶然作死获得的巨大奖励，以后会无数次作死，直到真把自己作死；人类无法忘记某次犯错而得到的巨大甜头，直到花光所有运气。

同样地，人会生物性地捍卫以前刻下的某条奖励反射回路，哪怕这个反射回路是随机性导致的，是错误的。

人会守株待兔，一定是因为捡过兔子。
没捡过兔子的人，不会没事找个树桩蹲一天。

同理，人会在赌场输到破产，是因为以前赢过大钱。”
CxEric，公众号：CxEric的读书与投资笔记要足够幸运，才能在错误的道路上迅速挨揍

宋人如果没有遇到兔子，老老实实地耕作，日子或许会过得更好一些；

老股民如果没遇到摄人心魂的牛市，踏踏实实工作/投资，或许他们的财务状况会更好一些。

事实上，牛市就是一些人输掉身家的原因。

“一见牛市误终身”。

芒格在《人类误判心理学》提到过两个类似“守株待兔”的例子：

1、“有个人愚蠢地去赌场赌博，竟然赢了钱。这种虚无缥缈的关联促使他反复去哪个赌场，结果自然是输得一塌糊涂。”

2、“也有些人把钱交给资质平庸的朋友去投资，碰巧赚了大钱。尝到甜头之后，他决定再次尝试这种曾经取得成功的方法——结果很糟糕。”

芒格举这两个例子，是为了说明人类会受简单联想的影响，过往成功案例会给人留下深刻印象，因而在下一次行动时会做出错误判断。

在心理上，他们受到了过往成功的激励，犯了简单联想的错误；

在逻辑上，他们没有理清过往成功的因素，低估了偶然因素、不可复制因素的权重。

比如说，假设：

你请了Eric吃饭，然后你中了一只新股；

你再次请Eric吃饭，然后你又中了一只新股。

也许你会默默地觉得，请Eric吃饭就是你中新股的原因，于是你连续一月每天都请他吃饭。

这就是简单联想、“错误激励”引发的一种“错误认知”，

而你的错误认知又引发了一种错误的行为。

你连续请吃饭的行为会被称为“守株待兔”，

而Eric连续吃一个月的行为会被统称为凑不要脸。

面对这种心里偏差，有没对策呢？

有。

芒格说，避免因为过去的成功而做蠢事的正确对策是：

（1）谨慎审视以往的每次成功，找出成功的偶然因素，以免受这些因素误导，进而夸大新计划成功的机率；

（2）看看新的行动计划中，将会遇到哪些在以往成功经验中没有出现的风险。

我对这两个建议深以为然。

这让我想起一个朋友，他作为一位价值投资者，在某只牛股上赚到不少钱，因而他坚定相信，自己赚的都是企业的钱，而非市场的钱。

直到某一天，他认真测算了一下，该企业最近几年的利润增长、估值变化，以及自己的盈利幅度，然后他略震惊地发现：他的的盈利主要来自估值提升。

这就是一种诚实。

如果他真的体会到了这一点，他就不应该预期，自己未来几年可以获得同样高的年化收益，因为过去那几年的收益幅度，主要来自市场观点的变化。

市场的想法，你最好不要猜。

不要贪天之功，不要贪市场之功。

要正确理解对错/奖惩错位的影响，就必须深刻地认识“激励”的威力——事实上，这个心理因素如此常见，又是如此容易被低估。

芒格说，“我觉得自己成年以来，在理解激励机制的威力方面，我比95%的同龄人要好，然而我总是低估那种威力。每年总会有些意想不到的事情，促使我对激励机制的超级威力有更深的体会。”

“激励”的威力之一，是它可以引导人的行动。

这很容易理解，人和动物都会重复做有好处的事情，避免做会挨揍的事情。

这个原理如此有效，以至于我们可以用来——预测人的行动。

如果欺骗客户能得到巨大奖励/很小惩罚，那么人就很难不去欺骗客户。

如果拖延工作可以获得奖励，我想大部分员工的动作会慢吞吞得堪比树懒。

这里说的激励，不仅仅是物质上的激励，还包括精神上的激励，比如安全感、满足感、社会声誉、自我形象等。

通过观察一个人身处的激励环境，我们就能预测什么样的行为是大概率会发生的，什么样的行为是很难出现的。

毕竟，人类是情境的动物。

这里举一个例子。

假如你真心信奉长期主义，希望坚持做符合长期主义的事情，那你是否真的能做到？

依我看，这主要不取决于你的决心，而主要取决于你的激励环境。

当你身处的环境，大力奖励短期领先，严厉惩罚短期落后，那不管你愿不愿意，你都必须优先追求短期主义。

——你可以在口号上、言语上说自己无视短期，但你的年终奖、岗位升迁、同侪同事压力最终会打醒你。

因而，我有一个略毒舌的看法：

长期主义都在PPT里，

短期主义都在KPI里。

是的，这个世界没有那么多长期主义者，

因为没有那么多支撑长期主义的激励机制。

你的激励机制，决定了你的行动难度；

你的激励周期，决定了你的思维周期。

所以，如果你真的想做点什么事情，不妨先观察下自己身处的激励环境。

某个朋友说，他很想做长期投资，但她老婆每周都要查一次账户，如果遇到股价大跌，就会先跟他吵一架。

嗯，这也是一种激励机制。

错误的奖励会引发错误的认知，错误的认知会导致错误的行为。

如果你重复一种错误的行为，它本身又会固化背后的认知。

这就是“激励”的另一个威力：激励，除了会引导你的行为，还会不知不觉间塑造你的认知，芒格称之为“激励机制引起的偏见。”

芒格在《人类误判心理学》中说，

“激励机制的超级威力所造成的一个重要后果就是我所说的“激励机制引起的偏见”。

有的人因为受过教育而变得道德高尚，然而在激励机制的驱动之下，他可能会有意或无意地做出一些不道德的行为，以便得到他想要的东西，而且他还会为自己的糟糕行为寻找借口，就像施乐工作那些为了得到最高提成而不惜损害顾客利益的销售员。”

如果某个行为能让你得到好处，那你就会为这个行为寻找合理的借口。甚至久而久之，你会真心相信这个“借口”，“导致人们在做坏事的时候觉得自己是正当的。”

你可以理解为俗语说的“屁股决定脑袋”。

芒格举了一个极端例子。

有个外科医生，他年复一年地将大量的健康胆囊，送到该市最好医院的病理实验室，如此乱来多年后才被革职。

芒格问负责开除他的医生：“难道这名外科医生以为：“这么做能显示我的医术很高明”，或“藉由切掉健康的胆囊来谋害几个病人，能让我有好日子过”？”

对方回答说，“不是这样子的，查理。”

“他认为胆囊是所有疾病的祸根，如果你真的爱护病人，就应该尽快把这个器官切除掉。”

这个世界上有没有无缘无故的爱，有没有无缘无故的恨？

我不知道。

但我知道，

这个世界上有无缘无故的奖励，也有无缘无故的惩罚。

如上文所说，这个世界的奖惩与对错之间，是存在错位的，

有时候你因为正确而得到奖励，有时候你因为错误而得到奖励；

有时候你因为错误而遭受惩罚，有时候你因为正确而遭受惩罚。

更过分也更让人难以接受的是，这个世界上有种理由叫无缘无故。

饱经世故的人都会知道，某个人遭逢大难，但未必就是他做错了什么；某个人撞上大运，但真说不上他做对了什么。

如果一万只猩猩玩石头剪刀布，最后也会有一只猩猩连胜N把，但你很难说这只猩猩是天赋异禀，有独特的石头剪刀布技巧。

或许我们终其一生都在体悟，这个世界是一个概率分布的世界。

朋友涤纶说，在生命里概率的意思是：你就是碰上了，没有为什么。

也许是好事，也许是坏事，反正你就是碰上了。

没有为什么。

结尾

行文至此，我努力试图向你说明，对错与奖惩是很不一样的概念。

但你或许还是会追问一句：它们到底有什么区别？

我能够提供的一个参考角度是：

对错关乎理性、原则和认知，而奖惩主要关乎利益。

那么是谁的利益？

很自然地，你就会带出一个概念：【我】。

人很多时候会看不清楚事情，不是事情有多复杂，而是内心被某种滤镜扭曲、渲染了视野，而一个常见的强大滤镜就是——【我】。

股价涨价，只有穿过人眼，才会变成贪婪、恐惧；

对错得失，在透过自我滤网后，经常只剩下得失。

当我们问一件事是对是错时，我们关心的是事情本身的特质；

当我们问一件事有利有害时，我们关心的是对【我】的影响如何。

当那个【我】过于强大，人就会不自觉地，或启动自我保护，或启动攻击模式，非常努力地干一件事情：趋利避害，乃至慌不择路。

因而，当我们认真地询问：这件事是对是错？这个做法是好是坏？这种方式是高质素的，还是低质素的？

这会引发一个微妙的心理引导：我们不再那么关心自我，开始就事物本身展开了思考。

芒格说，理性就是按照事物本身的样子去理解它。

这让我想起一件小事。

当我第一次看到段永平说，要做正确的事情，不要做错误的事情时，我深感困惑：

这不是废话吗？谁会做错误的事情？

后来我才想明白，他是对的。

因为对错与奖惩，是截然不同的概念。

现实中，大家真正热衷做的并不是正确的事情，而是“有利”的事情。

就像在股市里，大家并不想买有价值的股票，大家只想买“会涨”的股票。

这么一点微妙的差异，就会导致我们走上不同的道路。

我后来明白，

当段永平说要做正确的事情，他的意思其实是：

你的思维重点应该是对错，而非利弊。

如果我们混淆了这里的区别，就会奔赴利益、奖励，而逐渐忘了自己原本要走的是什么道路。

最后，在过去一年里，我很喜欢《禅与摩托车维修的艺术》这本书，虽然看不太懂，但依然大受震撼。

它的扉页上写着这么一段话，不妨以此作为结尾。

And what is good, Phaedrus,
And what is not good—
Need we ask anyone to tell us these things?

什么是好的，斐德鲁斯，
什么是不好的——
我们需要问谁来告诉我们这些事情吗？

是呀，

What is good,

And what is not good—

Need we ask anyone to tell us these things?

— END —

反向激励，在加速这个社会的黑化

呼伦贝尔跨省抓捕，我弟弟指居期间死亡，泣求自治区调查真相

布林肯国务卿与中共中央外办主任兼外长王毅在会晤前发表讲话

张连勇：人工智能生成物司法保护的挑战与应对

别以为是色情，其实都是哲理（深度好文）

错误的奖励，正确的惩罚

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

呼伦贝尔跨省抓捕，我弟弟指居期间死亡，泣求自治区调查真相

布林肯国务卿与中共中央外办主任兼外长王毅在会晤前发表讲话

张连勇：人工智能生成物司法保护的挑战与应对

别以为是色情，其实都是哲理（深度好文）

生成图片，分享到微信朋友圈

错误的奖励，正确的惩罚

您可能也对以下帖子感兴趣