机器学习、理论物理、计算社会学的碰撞 | 记2017集智-凯风研读营

原创 2017-07-29 谢泽柯 集智俱乐部

2017年之夏，古北水镇，天朗气清，惠风和畅。集智俱乐部和凯风基金会顺利举办了第二届集智凯风研读营。继去年“几何与学习”的主题后，本次研读营又让机器学习、理论物理、计算社会学三者擦出了火花。集智凯风研读营绝不同于一般的读书会——这里碰撞的是前沿的科学进展，是跨学科的科技创想。当然，这一切的基础是那群齐聚一堂、求知论道的青年才俊。

要问笔者最喜闻乐见的是谁？那当然是敬（meng）爱（meng）的理论物理大神尤亦庄了（星星眼）！笔者私下有一个用热力学理论改进机器学习算法的想法，却被一个问题困惑多日——机器学习训练集和热力学温度之间的关系。很明显的一点是，当我们把热力学温度的概念引入机器学习，机器学习系统的温度就是由训练集决定的。训练集越大，模型的热涨落越小，即温度越低。E大（指哈佛大学博士后尤亦庄）用3分钟教会我如何证明机器学习中的训练集大小和温度的准确表达式。

当然，不只是只有笔者私下喜欢尤亦庄。“谈笑有鸿儒，往来无白丁”，这话说集智研读营大概是一点不差的。我们这里还有着更多蕴含洞见的头脑，更多唇枪舌剑的激荡。

社会学游戏

第一日下午，从计算社会学的几位朋友领头设计了一个研读营所有人参与的社会学游戏。全部人员按照背景分为两组，分别为物理组和社会学组。物理组提出5个topic，每个topic下附上一优一劣两篇paper。社会学方面也是提出5个topic，每个topic下同样附上一优一劣两篇paper。那么某个领域的学者能否独立在阅读标题和摘要后判断另一个领域论文的优劣呢？在互相讨论后，大家又能否判断地更准确？学者会因为其他认可某项研究而变得更认可该研究吗？

从更大的方面来讲，文化产品的流行起来的过程是否有很大的随机成分呢？研讨会上一位来自普林斯顿的在读博士生张涵介绍了一个经典社会学实验得到的有趣结论，文化产品的流行大体上和产品质量是正相关的，但消费者极容易被其他用户的倾向影响。最流行的文化产品会受总销量、总下载量、总收藏量等因素影响而拉开与其他产品popularity的差距。原来一次跨领域读文献游戏背后也可以有这么多社会学背景的。

从物理到智能

而笔者最投入的一场讨论是关于“物理与智能”的。我们从自然科学的诸多角度审视了深度学习。

从数学的角度来看，深度神经网络是一种具有极好表达能力的模型。只要有足够多的神经元，我们能拟合任何连续的目标函数。而当神经元数目接近的时候，深的网络比宽的网络具有更好的表达能力。尽管深度网络的强大表达能力有着严密的数学基础，但是神经网络的泛化能力却是很令人吃惊的。从统计学习的角度，一般认为至少10个以上的样本才足够较好估计一个模型参数。而深度模型的参数往往是远远多于样本数。这样“粗略”估计得到的模型参数为什么还能在测试集上有良好的表现呢？神经网络谜一样的泛化能力是深度学习理论的一大挑战。

从物理的角度来看，物理定律在机器学习中有非常巧妙的体现。由于真实世界的数据始终是符合物理定律的这个世界的某种描述，这些符合物理定律的数据注定只是整个数学空间的一小部分。比如说，100*100的灰度图，数学空间里有256的1000次方种图片，但是物理世界会出现的图片（比如数字、猫），实际上是非常有限的。所以一种可能的解释是，神经网络和真实世界都符合某种统计先验。这种先验的存在让神经网络学到的函数相当程度上贴近符合物理现实的函数。除此之外，物理学中的空间平移对称性、时间平移对称性也是重要的先验。其在机器学习中的体现就是卷积神经网络和LSTM模型。卷积神经网络底层共享了探测图像特征的kernel，这里利用的物理先验是空间平移不变性（平移10个像素的猫还是一只猫）。LSTM则共享了时间序列的模式，利用的物理先验则是时间平移不变性（语言序列始终遵循特定的语法结构）。

为什么神经网络很可能天然地符合物理先验呢？

我们再进一步从生物学的角度来看这个问题。我们知道，神经网络模型与大脑实际的神经网络结构类似，都具备类似于layer的层级结构。在漫长的进化过程中，为了更好地感知物理世界，人脑进化出的层级的神经网络。这件事本身就说明了，层级的神经网络很可能是适于学习这个物理世界的，是符合物理先验的。机器学习科学家发现卷积核非常适于学习图像中的底层特征，其生物学上的对应就是视觉神经细胞的感受器非常接近于卷积核。

大概只有在这样的研读营，在这样的跨领域交流的气氛下，你才能同时发现这么多领域的有趣灵魂，这么多角度的深刻思想。