原创:站在香农与玻尔兹曼肩上,看深度学习的术与道
在《迷人的数据与香农的视角》一文中,我介绍了自己的“顿悟”:事物由不同层次的随机变量展现出来的信息来表达,不同层次上的随机变量携带不同的信息,共同组合影响上一层的随机变量的信息表达,而随机变量对外表达的信息则取决于该随机变量的条件概率分布。不少朋友赞同,同行更认为与深度学习相通。
如果真正理解了这句话的涵义,你其实已经理解了深度学习的精髓。例如识别一个人,体形、肤色、脸型、眼睛、鼻梁、嘴角等等,都是表征这个人的随机变量,用机器学习的术语叫特征,有显式有隐式。不同轮廓,不同血型,不同气质,不同性格,不同的IQ、EQ..., 不同层次的信息综合地表达了这个人。这种层级化的表达,大可以描述宇宙系统,小可以描述雨滴、微生物。
香农基于概率分布定义的信息熵,是对观测到的事物随机变量不确定度的描述,熵增加,不确定度增加;熵减小,不确定度减小。例如人脸,脸型有不同的取值可能性,眼睛大小、位置,睫毛长短,以及相互位置都有不同的取值范围与可能性。当这些不同特征的可能取值被一 一观测到之后,我们也就逐步认清了这张脸。也就是如果通过观测发现,某个东西走路像鸭子,叫起来像鸭子,看起来像鸭子,ok, 我们就认为它是鸭子。
这里提到了观测,这是获取事物信息,从而认识事物的唯一途径。人们需要尽可能多的了解这个事物不同层次的特征,尽量详尽,详尽到可以把他/她/它从与他/她/它极其相似的事物中区别出来,也就是穷尽这些随机变量的可能性之后,他仍然有别于其他。说起来很拗口 :D. 这些信息被记录成数据,也某种程度上解释了为什么大数据如此火热,大其实是足够,足够详尽,足够深层次,足够及时,去识别一个事物。大数据公司常用的套路是忽悠做360度客户画像,我们需要想想什么是360度,你的亲朋好友多少度了解你,你自己360度了解自己吗? 能画出3.6度吗?
观测是有误差的,而且很多情况下没法直接进行,比如计算湖泊中鱼的平均长度,但不同体长的鱼在湖水中的分布不清楚,如何捞出来量量呢? 马尔科夫说这好办,你构造一个概率分布迁移的链,从初始分布 P0, 经过 n 次 转移概率为P 的转移之后,肯定收敛于稳态分布 Pn。没明白? Gibbs懂了,发明了Gibbs采样方法。不过这里的转移矩阵是需要满足细致平稳条件的,也就是互相转移的概率相等,否则就不稳定了(敲黑板),记住“平稳”这个前提。
几位哈佛物理学家在最近的论文中《Why does deep and cheap learning work so well?》,对上文的分层随机表达方式做了理论梳理,在我看来,简直就是神总结,让你不得不佩服哈佛大学物理学者的功力之深厚。不少计算机科学家嘚吧嘚的多少层花式神经网络架构,随机梯度优化求解,说不清的无厘头正则化,都是“术”,在这里找到了作为其理论基础的“道”。论文作者用下图来概括深度学习领域的三类最典型问题,无监督学习(Unsupervided learning),有监督学习的分类(Classification)与预测(Prediction), 论文中看似有typo , AI 可能认不出来 :D。这三类问题归根结底都是用神经网络来近似概率分布:想象一个(x,y)的联合概率分布,或y发生条件下,x的条件概率分布,或互换,训练的过程就是找到这个近似概率分布函数的过程。
流行的深度学习算法怎么求解这些概率分布的呢? 我们先把这些随机变量的观测数据(训练数据)所包含的香农信息熵算一下,并且认定这是系统最大可能的信息展现(最大似然),然后最小化剩余的部分,就是求极大极小值,而且是用数值的方法,这里有不少的假设,比如凸函数,比如李普希兹连续(也可以理解成某种意义上的平稳假设),不少的算“术”,比如拉格朗日乘子,比如随机梯度下降,都是“赏心悦目”的微积分。通过对这个香农熵的方式适当约束,你能得到熟悉的最小二乘法,大学物理实验的时候拟合直线你肯定用过。
通过训练寻找这些概率分布函数,其中隐含着一个基本假设,就是系统是处于相对稳定状态的,一个急速演进中的开放系统,概率的方法应该是不适合的。例如机器翻译,对于相对稳定的事物的语言描述,AI翻译应该能够胜任,对于新的网络流形语,或小众的新生事物,前几年例如甄嬛传,基于统计的AI翻译或许就没那么得心应手了。周鸿祎在360营销盛典上总结AI 在直播中的表现的时候说,''计算机就把所有的锥子脸都定义成美女"。
又比如玻尔兹曼机,基于哈密尔顿自由能的分布其实都是有隐含的系统相对稳定假设的(玻尔兹曼分布是“平衡态”气体分子的能量分布律)。对于非稳定系统,就得求助于普利高津了。所以,当我们为AI的不断进步的“智能”欢呼的时候,一定要冷静的认识到它可能不适用的情境,请相信没有放之四海而皆准的真理,除了这句话本身。只有我在怀疑这件事不能怀疑之外,其他都是值得怀疑的 :D
另外我还有个忠告,不管AI有多牛,请尽量审慎地相信基于统计的预测(prediction), 看看这个农夫谚语,你就理解了: 我只想知道将来我会死在什么地方,这样我就不去那儿了。