What can we know from the given data? | 原创精选
“纸上得来终觉浅,绝知此事要躬行。”事实上,在未知的世界,对于勇于探索的人而言,关着的门是一种挑衅,而锁着的门是一种侮辱。我们可以知道的,应该远远比现在已经知道的要多,尤其是在已经知道的可以用数据表示的时候。——一本正经地胡说八道。
作 者 简 介
甄慧玲,应用数学博士,统计物理博士后,集智科学家,在主流SCI期刊上发表多篇文章。虽是非线性科学的背景,但对“神经网络”、“brain research”和“protein inference”高度感兴趣。现在理论物理研究所利用统计物理来研究深度学习的理论,目前主要从事learning和memory相关的工作,包括learning algorithm、memory的容量和机制、统计推断、反问题等。
先聊些其他的
可以加入集智俱乐部并参加关于复杂网络与深度学习的这次研读营,源于一个特殊的机缘巧合:我和“知乎网红”俯卧撑在2016年3月份下旬一起参加一个巴黎第六大学两个教授的关于Nonequilibrium Renormalization Group的学习,前几天索然无味地看着两个拿到tenure的人在各种公式推导(之所以说索然无味是因为看起来非常perfect的推导在最后被证实,数值模拟的效果目前很差),最后一天中午的时候突然就聊得嗨了起来,我说我关注深度学习,他就把我拉到了一个群里(事后知道这个群就是集智科学家那个群,群里面有一群非常有意思的人,每个人都在做着非常有意思的事情,关于这个以club的形式来玩科学的团体的更多描述,以后会有更详细的“记载”),惊讶地发现原来组里的associate、程序媛小S还有一些物理的大V尤亦庄也在。过了几个月,说是2016年10月份会有一个研读营,看到话题是关于复杂网络和深度学习的,当然立马报名参加(当时还交了两次简历,之所以是两次,因为第一次我只罗列了一些publications,而没有on-going works,囧)。
实话实说,在参加之前,我是真的认为这次活动就和以往开会没什么不同:有人做报告,下面大家在听,感兴趣就记一下笔记问一下问题,不感兴趣的部分就自己跑实验看文献,业余时间chat a lot but nothing to science。所以,开会的最终结果是听一下别人感兴趣的问题,积累下自己对问题的看法,然后最大的收获是交到几个朋友。可是,第一天结束的时候,我就知道这次会不一样,尤其是在第一天晚上大家的讨论内容真正有了点学科融合的感觉。关于“不同”的强烈感觉一直持续到最后一天,不仅由于中间穿插着的我们几个小朋友私底下的讨论,还有最后一个晚上大V们的各种思路提示,当然也许最重要的是在中间的某一个晚上我的实验得到了一个对目前的工作很重要的结果,张潘还和我开玩笑说如果这个是在任何数据集上都可以有的结果我们可以发表到任何想发的Journal或者Conference上。虽然不知道这种不一样会不会一定能升华成paper,但是,会议几天给我正在做的工作的insights,确实让我受益良多。
双曲几何能影响复杂网络研究吗
作为数学系出身的孩纸对双曲几何包括庞加莱圆盘和克莱因模型都还算是比较熟悉的(虽然没有很深入的讨论),但是在这之前,我并没有过多地思考双曲几何和复杂网络的关系。但显然,这是非常重要的一个branch。
事实上,双曲几何作为独立于欧氏几何的公理系统,在提出之初就是为了弥补欧氏几何中关于“平行”的漏洞:事实上,但凡和平行无关的,无论在欧氏几何和双曲几何中,都是一样的结论,但凡和平行有关的,都是不一样的,例如,欧氏几何中,我们认为过不在同一条直线中的三个点有且只有一个圆,但是在双曲几何中,过不在同一直线的三个点,不一定能有一个圆,能画出来的也不一定仅有一个(很简单的论证过程,考虑到topological 结构就可以)。双曲几何中一定要提到的两个模型是庞加莱模型和克莱因模型,两个模型的区别也很显然:庞加莱模型中,点是庞加莱圆盘中的点,“直线”是所有包含在庞加莱圆盘内,并于单位圆垂直相交的圆弧,在这个模型中,我们可以看到,过“直线”外的一点有不止一条“直线”和已知“直线”平行(即不相交);而在克莱因模型中,“点”仍然是庞加莱圆盘上的点,“直线”是单位圆的所有弦,这个模型的特点是克莱因模型中两条直线的夹角并不等于欧氏几何意义下的夹角。
双曲几何中的庞加莱圆盘的性质可以非常形象地这样理解:我们让整个双曲世界都被限制在一个单位圆的平面范围内,这时就会有两个最重要的性质:一,假如某物体X离原点O距离为d,那么该物体的温度为1-d2;二,物体的大小与温度成正比。这样,假如某个人从这个世界的中心走向边缘,那么他的温度会从1慢慢变成0,同时整个人慢慢变小。他自身大小改变的同时周围的物体也等比例地放大或缩小,而这个世界里的人视野有限,看不见远处的东西,因此他不会觉得自己变小了或者变大了。而这就意味着一件很有意思的事情:两点之间直线不再是最短的距离,比如说:如果从如下图A点走到B点:
如果按照红色的线段直直地走过去,所走的路程并不是最短的,因为这条路线离原点较远。所以事实上也许是先往原点方向走一点,然后再到B点去,这样走的路程更短一些。我们猜想,最短路线很可能是一条偏向于原点的弧线(就好像原点把直线段“吸”过去了一样)。之所以产生这种奇怪的现象是因为,离原点越远物体就越小,人的步子也变小了,相对来说实际空间就变大了。这就意味着说我们需要重新定义在双曲的视角下的“距离”。换句话说,对我们来说距离相等的两点,对他们来说离原点越远其实际距离越大。由于物体大小与1-d2成正比,因此我们可以定义,如果在离原点距离为d的位置上有一个充分小的位移,在我们看来距离为Δx,那么在这个世界中的实际距离就是Δx/(1-d2)。这样就可以算出,从A到B的最近路线是一条垂直于边界的圆弧(蓝色的那条)。这个事实等价于说,我们眼中的直线(其实是欧氏平面上的直线),在双曲看来就是曲线。
那这样的一种几何结构是如何影响目前的复杂网络研究的呢?这样的几何和普通的几何的区别看起来是什么直线曲线什么平行第五公设之间的差别,但简单地说,就是让我们考虑到了拓扑结构。加上了这样的空间拓扑,平面上的网络中节点之间的距离、簇系数、度分布等性质会发生改变,那么在平面网络上的pattern和flow也会呈现出更有意思的结果(这是必然的!)。
那结合我们现在的工作,关于深度学习而言,这样的研究会给我们什么样的启示呢?事实上,在深度学习的理论工作的研究中,一直都有关于“Why deep”的讨论,虽然这个问题在我们看来人们并没有拿到很好的结果(当然,有那么一些文章,通过一些数据集上的实验来证实说,你看,变深了的网络比浅的网络效果好啊。但是,拿最简单的Deep belief networks举例子,如果你用普通的CD来训练的话,确实增加一层,Likelihood和reconstruction error会变大很多,但是,如果你改进优化算法,即使是一层的,也会比之前两层的效果好。但是我并不是说网络的深度毫无意义,PS:如果是这样,深度学习就没有存在的价值了?!我是说,会不会是调整到最好的算法,变深的网络依然比变宽的效果要好,虽然这个结论目前是供认的,但是并没有一个很好的证明。)。但是,关于这个问题,还可以有另外的想法:网络变深也好变宽也罢,是从欧氏几何的角度出发,但是如果从双曲几何的角度出发呢?换句话说,即使是最简单的Boltzmann machine,如果我们增加了空间的概念(也就是双曲几何中的径向维度),会不会有一个最优的结构?原本的结构会不会可以表示成一些基本结构的组合?而增加的维度完全可以看成几何中的辅助线嘛。如果是Restricted Boltzmann Machine呢?如果这种optimal structure真的可以找到,至少是这种基本结构的表示可以找到的话,why deep的问题就会有另外的解释:deep的方向就是某种维度上让网络逐渐最优的方向!
统计物理学能帮助深度学习吗
我绝对相信!要不然,我就不会在一个统计物理的组做神经网络的工作了。其实,在很早很早的以前,我对神经网络感兴趣源于对protein中的各种statistical inference的兴趣和对brain research的持续好奇,而出于对neural networks中“neural”和“neuroscience”的前缀的关系的误解,就上了神经网络以及深度学习的“贼船(^_^ ^_^ )”。但是,对于神经网络和统计物理的关系,我之前认为他们的联系主要在Gibbs分布上。换句话说说主要集中在神经网络中和Hopfield网络有关的那一部分,比如,Boltzmann machine和Restricted Boltzmann machine等,当然也有associated memory和信息论中的compressed sensing这类问题。
但是,经过这次的讨论,一方面是张潘系统的引入,另一方面伴随着他的引入从另一个角度系统地读一些文献和结果,关于网络和统计物理的关系远远不止这些!上午的讲解我印象最深的就是关于几类推断问题的理解:所谓的极大似然估计和贝叶斯统计推断不过是统计物理系统在不同温度谱系上的特例:当我们将温度调节到0的时候,我们就得到了极大似然估计方法;而当我们将温度调节到1的时候,就得到了贝叶斯统计推断。还有,关于对称破和survey propagation的各种解释,以及复习了下belief propagation的各种推导过程。
事实上,在网络问题的研究中,经常会发生类似统计物理中“相变”的过程。很假单的一个例子,如果我们继续拿刚才的Boltzmann machine的optimal structure来说事的话:无论是欧氏空间中还是双曲空间中的Boltzmann machine,如果我们之前拿到的是一个全连接的网络的话,我们希望得到一个这个网络的最优结构,还可以怎么样定义呢:假设我们不断的删除边,或者不断的删除点,并用某个指标来定义网络的性质,比如supervised learning 的performance或者likelihood、reconstruction error、correlation这类,那么就很有可能会发生和普通的网络一样的相变,比如下图这个在随机网络上的结果(来自paper: arXiv:1603.05781v3,是Zhou和学生的文章 )。
可以想象,虽然Boltzmann machine和这个网络(这是在ER网络上做的实验)是有区别的(其实这个区别不过就是节点服从Boltzmann分布而已),但只要是在欧氏空间中应该还是会(很大的可能)满足这样的结果,但是,如果放到双曲空间中,会不会这个发生相变的点提前或者延后?是每一种指标都一样的结果吗?(当然,这样的问题,我们接下来的工作就会有一部分是来处理这个工作,希望可以得到好的结果^_^)
除了Boltzmann machine以外的呢?在第一天的下午,嫣然领着大家一起讨论了很多关于generative adversarial networks的工作,而这个模型是我的挚爱之一!!因为,这模型看起来实现了machine-teach-machine过程。你看,看起来是多么perfect的一个模型:有一个generator,负责生成模型(其实,很多我们熟悉的网络都是可以做generator的,比如CNN、RNN、RBM),而模型的另一部分是discriminator,负责判别生成的真假,以此形成一个loop,直到两者达到一个博弈均衡。而objective function则是用的KL divergence来实现。可是,这样的模型在训练的时候会出现什么问题呢:当然更详细的问题可以看嫣然11月8日的微信公众账号的文章:http://mp.weixin.qq.com/s?__biz=MzAwMjM3MTc5OA==&mid=2652692183&idx=1&sn=b436cba6a6fcd19dccaddccd42cb0f11(见阅读原文)。
我们都认为missing mode会是GAN训练中的一个难题,可以从她讨论的几篇文章中看出,大家都是在各种避免通过各种tricks,但是,对这个问题,我们的思路一直都是:加入G和D的部分都是energy-based model,或者从利用博弈的思想,来增加关于G和D之间的差别的限制,这就会导致说,博弈均衡的结果不再是1/2,或者从另外的角度来理解:如果我们给出博弈均衡应该满足的条件,而通过拉格朗日算子把这个条件放到objective function中,会是什么样的效果呢?而这部分内容也是本次研读营以后我们的另一个讨论方向。用博弈论和统计物理的联合力量来改进GAN会是什么样的效果?这个问题我和嫣然都拭目以待。(这件事我打算把我老板拉进来,期待好的实验结果ing!!)
同样参加了本次会议的俯卧撑对统计物理和生物网络的关系有不一样的想法,他做了很多关于“临界性”的研究,无论是大脑的还是蛋白质的。目前关于临界的结果是说如果磁化率是尖峰函数,我们就认为是到了临界。而怎么通过已有的数据来推断临界现象的性质,是目前的研究难点。但从统计物理的角度而言,临界本身意味着相变(当然,是几阶不一定),我们可以结合网络来给出临界的研究吗,显然很简单的一个思路是:我们可以通过对网络的学习来学习数据的特征,而这些特征会不会暗含着临界的某种信息?在学习的过程中,当然会涉及各种问题,比如降维(DNN中有方法啊,t-SNE就是不错的选择!),比如矩阵的谱分析(也可以理解成clustering的问题或者说community detection),比如说,温度等外界条件的影响,比如稀疏性,等等。俯卧撑和我都希望可以完成一点这个方面的工作,我们的计算已经在悄地开始啦!而在计算过程中,他提供的Dyson equation的思考方式,也让我学到了很多(希望我们的工作可以尽快放到arxiv上或者submit到某journal上,虽然到目前为止还有好多好多计算没有做)。
理论物理能借助网络和深度学习吗
我在参加Spring school的时候,老板就推荐我读关于重整化群的文献,当然也许就是因为把重整化群和深度学习联系起来的几篇文献,加上一些人利用重整化群的想法来改进机器学习中的overfitting等问题(比如,知乎@ 纳米酱),让包括老板在内的很多人越来越相信深度学习和重整化群有关。这里,当然包括做凝聚态或者量子信息的童鞋。
研读营的第三天,尤亦庄系统地给大家讲了量子信息和张量网络的发展历程和研究脉络(大V就是大V,笃定和从容是需要内涵作为支撑的),但是如果缺少最后一部分,这一天我只能用“物理知识普及”作为总结(对我而言是这样。。。o(╯□╰)o)。可是,画龙点睛的最后一部分内容让我突然间理解了“豁然开朗”:他告诉大家,不仅仅存在量子纠缠-张量网络-双曲几何这样的一条思考线,而关于纠缠的特征学习就是架起机器学习和演生空间的桥梁((*@ο@*) 哇~特征学习啊!!做深度学习的人听到feature眼前不仅是一亮!!)
通过他的讲解,我读了一些和他相关的资料,让我突然间就懂了之前看到的一句话:宇宙就是一台大型的量子计算机,而我们所关注的智能等问题不过是这里涌现出来的pattern。事实上,由于量子纠缠的存在,导致量子系统可以比经典系统有更强的信息存储能力和计算能力,因为信息不仅可以存在于独立的量子比特中,更可以存在于关系(即纠缠)中!尤其是当尤亦庄讲到测地线几何和统计物理的关系还有纠缠特征学习的表达式的时候,我内心感慨:这类和贝叶斯统计以及学习算法息息相关的表达式看起来比上午的舒服很多嘛!
但是回到之前的问题,这些与在深度学习理论中大热的重整化群有什么关系呢?尤亦庄在最后一个晚上帮我理清了思路:如果我们继续考虑一个简单的有层级结构的能量模型(这里的层级结构就是和why deep中的deep关系很大嘛!!),比如说很多个hidden layer的restricted Boltzmann machine (和物理相关的人做机器学习,真的很愿意拿这个说事啊。。。而不是看起来更简单的CNN或者RNN),如果输入的数据是由不同维度不同温度的Ising模型生成的,那么连接矩阵的某些特征(比如,几何平均?如果是稀疏的话,比如clustering的特征?或者说本征值?等等)会怎么变化呢?会不会是某种指标的指数增长或者指数下降?如果恰好是在相变附近生成的话,甚至于就是相变温度,那会不会出现直线?甚至于会不会在某些特定的条件的时候有power law出来?而这种变化也许就是why deep中那个deep的方向!沿着这样的方向去做feature learning才是最有价值的!那这和物理的关系呢?是不是从UR(ultraviolet radiation)到红外线(infrared ray)?或者如果从量子信息的角度来理解,也许会有更深刻的内涵?感谢他在研读营结束后的一个周六上午他专门到我们研究所与我和张潘讨论(其实主要是和张潘,我是旁听!),也许我们可以得到有意思的结果,希望最后可以整理成paper和所有人见面(继续期待ing)!
最后的最后
一直觉得最perfect的一个短语是:Time files! 转眼间。研读营已经结束了很久,我们也回到了研究所完成之前正在进展中的project(其中有一个应该很快就和大家见面了!),还进行了skype讨论。匆忙,也充实……但是我依然无法忘记(我应该永远都不会忘记)那样的5个白天,十几个年轻人互相学习共同讨论热情参与积极融合;那样的5个晚上,我调动了prehistorical powers来一边看文献一边做实验(不是还完成了几个很有意思的结果来着?!),还穿插着和各种人(什么俯卧撑、苑明理、嫣然一拨一拨的)线上讨论;在那样的一些中午,我们都不睡觉在查资料总结结果;以及在那样的一个安静午后,我和嫣然还有俯卧撑在沿途边聊天边吃冰糖葫芦边畅想未来边思考过去(同时干了好多事!!)
在那样的一个安静的午后,留下了我和嫣然沿着古镇小道的合影。Hope for wonderful cooperations!!(一定要是复数,因为我们可以合作到很久很久以后!! 此处应该有@ 程序媛小S)
记得小时候(真的是很小很小的时候),爸爸就鼓励我“读那个时间最好的书,和周围最优秀的人对话,去看能走到的最美的风景”,我知道,那是一个父亲对女儿的期待。一路走来,从小学到本科到博士毕业,宽松中不失厚望的环境养成了我今天各种混合体的性格。
无论在什么样的团队,和什么样的人共事,做什么方向的工作,从开始到现在,我一直都是那个会看到好结果就兴奋、看到好的工作就热情、自己得到好结果无论几点都会欢呼、一个小小的进展都会让我开怀的那个人。所以,我知道,研读营虽然结束了,但是后续的工作远远没有,我和大家的合作远远没有,我和好朋友之间的友谊远远没有……希望我们都能像Hopfield老先生一样,年过80依然可以以唯一作者的身份在top journal上发表文章,都可以关注行业内最难的问题,对科学依然充满热情,对梦想保持忠诚,对明天满怀期待!研读营之后,我知道,比我想象中的多很多的人与我一起同行在这条路上!
推荐阅读
集智俱乐部
英文名: Swarm Agents Club ,简称“ SA Club ”,成立于 2008 年 , 是一个从事学术研究、享受科学乐趣的探索者的团体 。倡导以平等开放的态度、科学实证的精神,进行跨学科的研究与交流,力图搭建一个中国的 “ 没有围墙的研究所 ”。
集智俱乐部的口号:
让苹果砸得更猛烈些吧!!!
集智俱乐部的使命(即目标):
营造自由交流学术思想的小生境,
孕育开创性的科学发现。
让苹果砸得更猛烈些吧!
长按识别二维码,关注集智Club,
让我们离科学探索更近一步。