该怎么看待降维这件事
“维度打击”这个来自与三体的词的流行,使得人们熟悉了降维这个概念。面对未知,人总是习惯降低维度,而降维的极致是将种种复杂的情况变为一个数。例如,对于得了癌症的患者,他们最想知道的是得了自己这种病的人平均还能再活几年。但是,这个终极的降维将会扭曲过多的信息。
这个问题的实质,是问问题的人不想,也不能知道全部的信息。资料库中有这类患者共百万人,每个人接受的治疗不同,每个人本身的身体素质不同,每个人的心态也不同,从而导致了每个人的诊断后寿命也不同。但问问题的人不是再做科学研究,他只想基于短小明确的信息做出判断。在这个时候,有用的信息必须要在一分钟之内说完。
要涵盖更多的信息。我们要做的是分类,而对于一个随机变量,最关键的不是它的统计指标,而是它的分布。最著名的分布有正态分布和指数分布,不同的分布,其结果天差地别。正态分布对称,尾巴不长,不太可能出现太离谱的事件。而对于指数分布,远离平均值的事件注定会发生。
对于上文提到的癌症患者来说,搞清楚存活时间的分布远比搞清楚平均存活时间重要的多。如果存活时间是正态分布,那么你有50%的几率活过平均存活时间,之后死神会离你越来越近。而如果是指数分布,由于其scale free的性质,当你活过了平均存活时间,你预期还能再活一个平均寿命那么长,也就是说,死神会离你越走越远。正如《反脆弱》中所说,如果一个事情存活了1000年,那么你可以预期他还可以在存活一千年。
事实上,癌症的存活时间更接近指数分布。理解这则信息和其背后的意义,对于癌症患者的意义,远远超过了平均存活年龄。这则信息说明,同样的治疗方法,相似的病症,却有着相差甚大的存活时间。其中肯定有些正反馈存在,不然不会有这个一个尺度一致的分布。而这个正反馈,最有可能的便是患者的心态和求生意志。更强的求生意志会带来更多的生存时间,而这会延长你的存活预期。
从癌症的例子,我们可以看到降维的问题之一是忽略分布。而另一个问题则是你选择的指标可能不够基础。例如,按照流行的观点,对于学生来说,一维的指标意味着分数至上,对于企业来说,是利益至上,对于国家来说,是GDP至上。
有的人不同意这样的降维方法,说评价学生的指标应该是综合素质,20%的体育,20%的艺术,30%的修辞,30%的科学,有的人认为这个比例不对。对于国家,有的人认为GDP不能代表国家的实力,GNP才能。
降维的极限,是为了给出一个排名,给出一个排名,是为了给出是否进步的评价,可惜,自然界的进化不是这样的。
不同的基因是一个不同的维度,每一种基因的组合带来不同的适应性,进化的目的是找出最优的基因组合,使生物体有最优的适应性。不是跑的快的就一定能抓到猎物,也不是体重大的就一定能抢到妹子。
生物体的降低维度,不是通过对几个维度的加减乘除,而是通过一套复杂的大网,将一个个个体的性状变成了基因组合的适应度,从而指导生物的进化。
就比如说中国文化对世界文化的贡献,可选取的维度有中文书报的数量,中文论文的数量,使用中文的人数,中文网页的数量,要降低维度,我们需要的是让各国的文献互动,最后选出的维度是有多少中文被翻译成了外文。然后来评价各国文字相互翻译的表上中文出现的中心度。
PageRank算法也是在降低维度,从而形成对网站的排名。总统大选也是在降维,政治问题错综复杂,最终落到了两个人的选择。
pca之所以能降低维度,如下图所示,是找到了AB两个数据点的相关冗余的部分,如果待降维的点都在坐标轴上,那么降维损失的信息量就很大了。
要避免过度降维的坏处,就要找出相互之间独立的维度来,通过现实生活中的竞争,来动态的调整不同维度间的权衡。
对于物种,这两个独立的维度是吸引异性的魅力和让自己活下去的能力。
对于企业,是花在探索新领域(exploration)和花在巩固已有疆土的能力(exploitation)
对于学生,是之后继续学习的能力和已熟练掌握的知识
多找出几个相互独立的维度,才能避免被过度降维成一个数字。
不要总用一个简单的指标来评价别人,久而久之,你也会因此掉如自己射出的二向箔,对自己的评价也只使用那个孤立的指标。
所有的降维,都会带来原始信息的损失。就像可以用中位数,众数,平均数来为一组随机变量降维,但无论那种降维方法,都有各自的问题。只有明白了随机变量的分布是更趋近正态还是指数,会降低降维带来的信息损失。
代替降维的最优方法,是先构建起相互作用一个网络,看看网络中那个节点处在中心。节点的互动包含的隐藏信息,可以在网络的构建中被展示,从而使降维所依赖的信息不止是变量之间的相关性。不过这需要来源多样,时间连续的数据,而这样的数据可以被操纵,从而改变降维的结果。
我们学习读书,只是为了得到更多的降维的方法,从而在自己被别人降维时,能够为自己撑出一个别人没有想到的维度。
关注更多巡洋舰精彩内容欢迎加铁哥个人微信562763765