查看原文
其他

觉醒的网络

许铁 混沌巡洋舰 2018-12-09

我们生活的时代, 人们或称之为信息时代, 或称之为大数据时代, 信息过载, 注意稀缺成为时代的关键词, 而终身学习,阶级固化,后育时代, 人工智能这些热点话题, 都与之息息相关。 在这个时代, 经验是否已经过时,知识到底还有没有用,新科技是否会打破阶级固化, 人工智能到底是个工具还是和人类一样的存在本身? 这些问题看似没有联系却断丝连。 


要彻底理解这个巨大的谜团, 我们首先要理清数据, 到信息,到知识的整个脉络。虽然大家天天在提这几个东西, 却无几人弄清这些东西是什么。 


用一个东西来贯通之, 就是网络,一般人会以为网络就是一大堆东西连在一起,而高手看来网络是过滤信息的通道。 应该说从生命进化,智人出现到科技革命,贯穿的表面是信息的增加,而背后是网络的进化。 


数据,信息和知识均存在于网络之中。从因特网到社交网络到神经网络,的确,这个时代最高大上的东西往往与网络相关。一般人理解的网络是链接,在我眼里,它是过滤器。 


什么是数据(Data=Sensing)


夸而言之, 这个世界所有的东西, 只要可以观测的,都是数据。 比如文字,音频, 视觉等等。 狭义的说, 数据是那些我们可以量化的,测量的东西,或者说感知(sensing)。 


从数据到信息(Information=Correlation) 


信息是数据之间的相关性 ,理解它可以想象与其相对应的概念-噪声。  噪声是无序的数据, 广播里杂乱无章的声音叫噪声是因为它们无法和你大脑中任何的东西相关起来。  信息是相关性, 因此信息的获取可以消灭无序与不确定性。


相关性之所以如此重要, 是因为你发现了一组相关性, 你就获得了一些预测能力,通过观察东风起你知雨将至, 梧桐一叶知天下秋。   线性回归这么流行, 就是因为它是用相关性做预测的最简单方法。 用物理的思维看,信息是对称性的破缺。用实用思维看,信息是通过女孩的眼神看她对你的可能态度。 大量相关性的基础性我们得到因果性。 大数据时代, 人们从千百年自身实践经验里找相关性的过程, 变到直接用数据找相关性。 


从信息到知识(Knowledge=Actionable insights)


无序的数据被去掉, 我们得到一组组相关性,谓之信息, 众多信息之上,我们形成知识, 知识之所以好用,是因为他们可以被用于指导行动。 也就是说, 进入知识这一层,开始有了人这个主体的出现。 人要在大量信息中过滤出对人有用的,才有了知识这个东西。 知识的单元是概念,一个个的概念好比是我们编程里的“类”  ,可以把很多不同的但具有相似性的信息封装进去, 供我们某一情境下取出指导行动。 概念为何重要, 简而言之, 好概念让你可以举一反三触类旁通,而具有比别人多无数倍的信息处理效率。  


A和B都有一样的信息, 你掌握的知识(概念)不同,导致你的行动和结局南辕北辙。甲听到女生说“ 讨论” 觉得真讨厌, 而有心理学“ 欲擒故纵”概念的乙就会发现弦外之音。   所以知识就是力量, 学习就是革命。 现代人不一定如古人聪明, 因为他们掌握更多更有效的概念, 而信息处理能力不可一日而语。  


从数据到信息到概念过程本身体现在网络:  


过滤器- 通过网络来过滤


从数据到知识的过程, 根本的体现是过滤器 。 第一层过滤是数据到信息我们去掉了无序, 第二层过滤是从信息到知识我们去掉了那些与决策无关的信息,这点主要是通过让信息通过一个网络结构之后形成概念实现的。 我们扔掉了大量的无用信息, 从而使得决策的认知成本大大降低 。  这过程要是画成图就是神经网络啦, 形成这个过滤器的过程, 即学习,无论是人类是机器在学习。   


我们想要通过这部分, 告诉人这样的一个基本事实  -  网络是用来筛选和组合信息的, 通过网络我们得到知识和知识体系, 网络本身的形成即学习过程。 


神经网络, 其实是一个多级的过滤器, 把数据过滤成信息, 把信息过滤成知识 。 


我们可以用神经网络来理解人类是如何形成知识的。神经网络具有几个简单的功能, 一个是“权重积分” 把很多东西按一定权重融合, 这个权重,就是“敏感度”, 比如你看评判一个人好不好看,先要看眼睛, 给眼睛那么多权重呢, 是因为眼睛里携带了大量对方是否友善, 是否聪明等和我们相关的信息,  在信息过滤的时候, 积分就会给研究一个比较大的权重, 或者说敏感度高。 我们可以认为 ,神经网络看东西追求的就是偏见, 只爱给我们带来好处的信息 。 另外一个东西呢? 就是过滤,即把一些冗余的信息过滤掉, 这点是通过一个非线性函数实现的,简单的说过大过小的都没用, 而不是泥沙俱下。因为我们的接受的信息是连续的,而我们要做的决策往往是“ 是” 或“ 非”  , 这过程就是很自然的, 你看, 此处依然是简化和过滤。 

多级卷积网络的三个主要部分 , 卷积, 池化和RELU, 都和过滤,即如何扔掉信息有关。 卷积层对视觉图像的总体信息进行分级过滤,从信息入口来看,深度学习可以通过卷积处理,得到图像的局部反差,再通过RELU筛选出局部反差超过一定阈值的图像块,并通过池化(pooling)对特征进行降维,因此得到的信息的抽象表达,得到视觉图像之间在更高层次的关联。    


从信息敏感到形成概念, 差异的就是从一级网络到多级网络的概念。对信息进行不同敏感度处理和过滤后的信息如果再经过一层相同的操作,我们就形成了对过滤后信息的再次过滤, 过滤之后我们保留的具体事务的信息, 而经过两级敏感度网络, 我们可以把握不同事物之间的共同之处, 或者某种深层的相关性, 从而进一步加大我们对世界的预测能力。 用一个简单的比喻来说, 浅层的网络可能做到识别你见过的某两只猫和狗。 而多级网络甚至可以学会猫科动物这个概念, 这就可能让你躲过多的多的未知危险情况。  因此, 概念和知识隐藏在巨大网络的权重里。


过滤器的具体形式 


(a)语言


语言本身即知识的节点, 它把我们的五感信息得到抽象的概念。比如猫这个概念, 是对大量图像信息的抽象。 语言也是下一级过滤器的基础。


(b)书籍 


书籍是一个下一级别的过滤器,它把用语言表达的大量人类经验, 归纳为主题(知识体系), 形成学科。  每一本书都可以看做大量语言组成的序列, 从语言到书籍是一个有序的网络(用这样的思维你会很快看一本书)。


(d)社会网络


有一类比较特殊的过滤器, 那就是我们自身社会啦。 无论是什么时代 ,我们的社会都是充斥着等级和秩序的, 就是因为它是一个信息过滤的有效结构, 被各种机制选拔到上层的人处于被其它信息顶点的人包围, 它处理信息效率是别人的无数倍, 而同时是决策者。一定的“阶级”结构有利信息的流通,然而当这种结构过于僵化的时候, 其信息处理的效率又会大大降低。 


各种社会选拔的本质, 是把社会里那些信息处理能力特别好(智商高,家境好,教育好)的人有效的向级联网络的上层提升, 这种机制越有效社会就越高效。 如此你可以思考民主制在什么情况下有效, 联邦制的优势等。 

不同的结构代表不同的信息处理效率, 对网络本身的设计已经被广泛用于公司治理, 详见阿米巴。 



(c)因特网


因特网是一个巨大的过滤器, 它首先把不同的信息源连接起来,通过类似蚁群的算法, 自动进化出一套网络结构, 在此网络结构之上 , 形成对信息的筛选和分级。 我们看似平等的互联网,其实是非常不平等的。互联网工作的根本原理其实依然是过滤器,如同多级卷积网络一样, 是一个级联结构,网络上的大V,或者信息灵通人士,所能接触和控制的信息是别人的千万倍原因在于它处于hub point, 所谓它的周围也是无数的大V,它所接纳的信息是被其它大V过滤过的,因而同样时间与一般人的信息处理效率不可同日而语。在信息时代, 不同级别的圈子上的人所接触到的信息都增加了, 但极有可能的是它们之间的差距也加大了。 因此大家都在喊的阶级固化在高科技时代并未缓解。  因特网整理产生了大量新的信息, 也使得我们通过过滤处理信息的能力大大增加。 

看似平等实则利用“差异”过滤信息的因特网。


(e)人工智能


人类自己形成的知识,写在书籍之上的知识, 是人类学习的结果,这些结果本身并不能自我学习和进化, 而人工智能(连接主义门派)就是人类把形成知识的经验灌装到计算机里,让计算机自发形成“ 知识”  , 而用知识(actionable insights)来知道行动。


那么说说人工智能的应用啦 , 人工智能在这个时代到底要做什么? 是和人类进行人机大战? 和人谈恋爱? 还是给人做牛做马? 都不是。 


人工智能代表信息过滤器本身的进化 ,社会进化到因特网连接的社会网络,  信息的产生已经超越人自身通过制造概念来处理信息的极限。 社会整体需要决策进化,就要更先进的过滤器, 无论它给出的结果符不符合人已有的知识。  那么好了, 我们人给机器灌装我们形成知识的这套打法, 而不是知识本身。 这点上,深度学习算是蒙对了路子, 多级神经网络恰好和人脑过滤器本身的结构有几分神似(注意不是形似), 虽然是个极简版本,而可以脱离生物限制处理信息。 视觉网络终于有了几分人类形成概念的能力,从而区分了猫和狗, 而紧随其后它就干掉了李世石玩赢了人类至今最难的游戏。可见学习概念这件事本身的力量! 


我们这个时代的人工智能创业, 就是要摸着这个本质走, 在通用人工智能出现前,它就是要进入一个个特定领域, 学习每个领域既有形成概念和知识的技术, 而同时将目前因特网,各类平台积攒的海量无序信息, 形成计算机理解,但人不一定理解的概念去做人不一定懂得的决策。 这不仅仅是节约人力的问题, 而是做超越人力现有能力极限的最优决策。当然, 一开始一定是在一个个垂直的应用领域。  我想, 每个领域最强的公司, 未来都有一套自己撸出来的神经网络,这个网络学了所有这个特定领域的人力经验,而可以work的越来越好。  神经网络设计will be state of the art。 


  



欢迎加入巡洋舰科技-Build The Next Generation of AI service,我们今日坐标五道口。 







    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存