错误的奖励,正确的惩罚
文/CxEric
1
激励与对错,是两组截然不同的概念,但人经过漫长训练后很容易混淆,误将奖励≈正确,而将惩罚≈错误。
这似乎是一种根植于进化过程的本能意识:
得到好处的,一定是对的,重复它;
得到坏处的,一定是错的,避开它。
生物本能很大程度就是这样运作的,就像芒格所说,大自然存在一种普遍的伟大算法——重复有效的行为。
但这显然存在一些误解,因为在逻辑上我们不难明白:奖励/惩罚、正确/错误,其实是两组概念,它们可以得到2X2=4种组合:
正确的奖励、正确的惩罚;
错误的奖励,错误的惩罚。
这意味着,
如果你得到了奖励,你可能是对的,也可能是错的;
如果你得到了惩罚,你可能是错的,也可能是对的。
奖惩与对错之间,没有一对一的映射关系。
甚至有时候,它们彼此毫无关系。
这多少有点反直觉,但我们就是生活在这样一个世界。
如果你要求这个世界在给予奖励、惩罚时,必须在时机、方向、力道上都正确无误,那你就对这个世界的运行逻辑提出了过分要求。
毕竟,连人类自己设计的规章制度,都时常错漏百出,你又如何能要求大自然、命运之神运作的奖惩模式,能够遵从人类的理解方式呢?
不要忘记这个世界有多混乱。
2
什么叫错误的奖励?
就是你做错了事情,甚至什么都没做,却得到了很大的奖励。
它容易让你高估自己的能力、方法、价值观,让你在某条错误的道路上拔足狂奔,拒绝回头。
比如说,守株待兔。
什么叫错误的惩罚?
就是你明明做对了事情,却依然莫名地被胖揍一顿。
它容易让你质疑自己的能力、方法和价值观,驱使你放弃正确的做法,采纳错误方案,直到不久再被揍一次。
这多少会有点让人抓狂,毕竟我们都期待自己居住在一个有“逻辑”的世界。
就像在游戏中,如果做对了,我预期会得到奖励;
就像在学校里,如果答对了,我预期会得到分数。
但生活的另一面,是复杂、无序、随机和多变量。
作弊是错的,但有人以此得到更高的分数,还没人告发他;
诚信经营是对的,但你可能会承担更重的经营成本,客户还怪你卖太贵。
你能怎么说呢?
我当然不是鼓励作弊、否决诚信,只是我们都需要明白在生活中:
奖惩无法代替对错;
奖惩难以揭示对错。
3
关于“错误的奖励”,我最喜欢的例子是【守株待兔】,故事出自《韩非子》:
宋人有耕者。
田中有株,兔走触株,折颈而死。
因释其耒而守株,冀复得兔。
兔不可复得,而身为宋国笑。
这个世界上是否真有蠢兔子,会奇怪地一头撞死在树桩上,然后让你白捡一次便宜?
我不敢说这个可能性是0.00%。
但如果被你遇到了,你最好不要误以为:这一切源自你的努力。
白捡一只兔子,是一种奖励,但你得到这个便宜,仰赖的是随机性、兔子的愚蠢和大自然的bug,而与你的体能、姿势、心态、技巧无关——事实上,你没有做任何可称得上“正确”的事情。
如果你无法理解这一点,你会将捡兔子归功于自己的能力、方法或人品,以此夸耀于乡里,传授方法于众人,然后写下网红文章《我如何0成本捕获一只兔子》,直到某天饿死或被门徒喷死。
这就叫贪天之功——明明就是随机性的功劳,你非要说是你能力过人。
那么,宋人偶然间捡到兔子,是好事还是坏事呢?
零成本的便宜,当然是好事吧
——但如果宋人从此荒废劳作,整天眼巴巴等兔子呢?
一个错误的奖励引起错误的认知,
一个错误的认知引发错误的行为。
接着,
重复错误的行为又固化了某种错误的认知,
乃至伤痕累累,
不撞南墙终不悔。
这又好像是坏事了。
我想,宋人如果从未遇到过那只兔子,他也许会过上更好的生活。
所以这个故事告诉我们,如果某一天,你碰到傻乎乎的兔子,怀着感恩的心,吃了就吃了,但不要混淆这背后的缘由,不要贪天之功以为己有。
如果你无法保持这种清醒,或许最好的安排是:你永远不要碰到这种“好”事。
不然,你会成为守株待兔的人。
你会荒废你的田地,耽误你的时间,直到某天被人编成段子写进书里。
4
某个意义上,A股不缺“守株待兔”的人。
我说守株待兔的时候,不是夸他们具备足够的耐心,愿意静静地等待结果到来。
我说的是:
因为某一次偶然的收获,他们就认定自己的方法正确可持续,因而念念不忘地蹲在树桩边上,田也不耕了,活也不干了。
我遇到过一些20年+的老股民,虽然整体亏掉了很多钱,但他们依然对A股恋恋不舍,魂牵梦萦,最主要的心理因素是他们深刻地记得:自己曾在牛市里赚过大钱。
“爱过”算什么,
“赚过”——才让人撕心裂肺,刻骨铭心。
于是多年过去,哪怕总体上亏得一塌糊涂,他们的眼睛依然闪烁着期待的光:
请再来一次牛市。
“狗无法忘记某次偶然作死获得的巨大奖励,以后会无数次作死,直到真把自己作死; 人类无法忘记某次犯错而得到的巨大甜头,直到花光所有运气。
同样地,人会生物性地捍卫以前刻下的某条奖励反射回路,哪怕这个反射回路是随机性导致的,是错误的。
人会守株待兔,一定是因为捡过兔子。
没捡过兔子的人,不会没事找个树桩蹲一天。
同理,人会在赌场输到破产,是因为以前赢过大钱。”
CxEric,公众号:CxEric的读书与投资笔记要足够幸运,才能在错误的道路上迅速挨揍
1、“有个人愚蠢地去赌场赌博,竟然赢了钱。这种虚无缥缈的关联促使他反复去哪个赌场,结果自然是输得一塌糊涂。” 2、“也有些人把钱交给资质平庸的朋友去投资,碰巧赚了大钱。尝到甜头之后,他决定再次尝试这种曾经取得成功的方法——结果很糟糕。”
“激励机制的超级威力所造成的一个重要后果就是我所说的“激励机制引起的偏见”。 有的人因为受过教育而变得道德高尚,然而在激励机制的驱动之下,他可能会有意或无意地做出一些不道德的行为,以便得到他想要的东西,而且他还会为自己的糟糕行为寻找借口,就像施乐工作那些为了得到最高提成而不惜损害顾客利益的销售员。”
人很多时候会看不清楚事情,不是事情有多复杂,而是内心被某种滤镜扭曲、渲染了视野,而一个常见的强大滤镜就是——【我】。
股价涨价,只有穿过人眼,才会变成贪婪、恐惧;
对错得失,在透过自我滤网后,经常只剩下得失。
当我们问一件事是对是错时,我们关心的是事情本身的特质;
当我们问一件事有利有害时,我们关心的是对【我】的影响如何。
当那个【我】过于强大,人就会不自觉地,或启动自我保护,或启动攻击模式,非常努力地干一件事情:趋利避害,乃至慌不择路。
因而,当我们认真地询问:这件事是对是错?这个做法是好是坏?这种方式是高质素的,还是低质素的?
这会引发一个微妙的心理引导:我们不再那么关心自我,开始就事物本身展开了思考。
芒格说,理性就是按照事物本身的样子去理解它。
这让我想起一件小事。
它的扉页上写着这么一段话,不妨以此作为结尾。
And what is good, Phaedrus,
And what is not good—
Need we ask anyone to tell us these things?
什么是好的,斐德鲁斯,
什么是不好的——
我们需要问谁来告诉我们这些事情吗?
是呀,
What is good,