神经网络的跨学科盛宴
巡洋舰神经网络分享会- 介绍基于跨学科风口的神经网络,以飨读者。
感谢本次邀请嘉宾 - 杨东平博士的贡献。杨东平博士在复杂系统,平衡态神经网络领域均有建树, 目前在悉尼大学从事博士后工作。
神经网络这个东西,随着最近阿法狗和深度学习的热络, 真是火遍全球, 人们已经快把它看成一种新兴生物 , 却忘记了它的真实出处, 我在巡洋舰的此次讲座, 从物理学,复杂科学 ,计算神经科学与人工智能的角度综合分析了神经网络这个玩意。(结尾插有一条广告)
从物理角度看神经网络: 自组织涌现与复杂科学
要说物理学家看神经网络, 就不能离开统计物理。 物理学家把神经网络看成无数神经细胞相互作用组成的一个整体。就如同理想气体是无数分子的组合或金属晶体是原子的组合类似。 虽然单个神经细胞只有一个简单的作用, 就是把接收到的信号(stimulus)转化为一定的输出(spike) 。 但是这样一个简单的东西通过大量加和的网络效应却可以产生智能这种十分复杂的现象,这正是物理里说的涌现性。所谓简单的东西堆在一起足够多, 突然之间产生了一个更加复杂和高级的现象。 这种由于尺度跨越造成的飞跃性变化。 物理学认为是自然界各种复杂的东西形成秘密之所在。
然而和神经网络最接近的物理恐怕是易辛模型。易辛模型特别简单易懂,说的是在一个网络里,每个单元都只受到自己邻居的影响,大家在一个集体里, 每个个体都有到与周围人做类似行为的趋势(趋同力), 同时也受到各种随机性的影响来破坏这种趋同效应(温度, 热扰动), 最终整个网络的状态是这两种力量平衡的结果。 如果温度比较低的话, 最终网络将会呈现一种整体一致的状态,因为这个时候系统总体能量最低。而温度高的时候,系统更加趋于无序。 这种从有序到无序,无序到有序的变化在某个温度上突然发生。 易辛模型解释了大规模宏观秩序是如何从自由散漫的群体中涌现的, 还真的被用在了生物神经网路的研究上, 大名鼎鼎的Hopefield网络的理论就是用这种机制解释大量神经元在一起如何通过微弱的相互作用来实现集体编码和储存一个信息的。在此处物理系统喜欢呆在能量极小点的原理忽然变成了神经网络进行决策的物理基础。 那个使得网络总体能量最小的状态,对应你做的决策。
易辛模型: 每个磁针都有和邻居保持一致方向的趋势, 这种简单的作用力导致大规模的秩序的产生, 比如一个社区群体的意志是如何趋于一致的。
从相变的角度看神经网络, 我们可以理解很多我们常常百思不得其解的问题, 如我们是如何睡觉的。 从醒着到睡觉, 人脑会发生一个剧烈的变化, 这个变化其实跟物理里面水结冰的现象很像。 是从自由的状态, 到极为有序的状态。 如果你观察从醒着到睡着的脑电波变化,你会发现波形凑某一点上一下子变掉了,这过程与相变是多么相似。 睡眠,冥想,爱上一个人, 或许都可以看做这种大量神经单元 在某种条件下从一个整体状态跳到另一个整体状态的相变。
多种多样的脑电波反应大脑的宏观状态
物理学角度对神经网络的贡献当然不止于相变和涌现性 , 更主要的贡献是非线性动力学。非线性动力学的方程式甚至精准的预测了神经细胞放电这个极为复杂的理化过程, 这就是大名鼎鼎的Hodykin-Hulex 模型, 在这个模型中, 巨多繁琐的实验现象被一组精心编排的微分方程同时消灭掉, 堪称物理解释生物的神迹。你如果在电脑上跑一些这个方程,得到的现象近乎和细胞真正放电时候不可区分。
Hodykin Huley model预测的神经元放电动力学模型: 左图是复杂的方程,右图是神经元放电电位随时间的变化,我们可以看到这组复杂的方程把神经元的离子通道变化进行了精确的定量描述。
对于神经网络的动力学解释主要基于物理的混沌理论。 因为神经网络作为一个高维系统, 它的行为正好符合混沌的框架, 你去扰动任何一个神经元, 则产生的后果不可预料, 符合南美洲的蝴蝶扇扇翅膀引来北美的飓风这个比喻。 我们都知道生物的神经网络可以极为精准而稳定的决定动物的各种行为, 这样一个混沌充满随机性,看似不可控的网络, 是如何给出那么精准确定的行为的? 这就与物理里降维的思想暗自相通。高维度的网络系统在某个任务的时候, 可以被化解到更低的维度里用动力学完全解释,这个过程暗自通向人工智能的核心。
从生物角度看神经网络
生物学眼里的神经网络估计是最复杂的,生物学家注重细节和功能, 我们要理解网络,就要去解剖, 做电生理实验, 做各种神经成像。 首先我们关注神经细胞之间的具体链接,然后我们关注这些连接实现的载体- 突触的性质。研究细胞之间通讯的关键,神经递质。 神经递质又是由一定的DNA编码的,最后我们又回到了遗传学。 跑完一圈我们得到感知, 到决策,从而心理现象的生物解释。懂得吃哪一种药可以让你春心大作。
再次强调生物学家是特别重视细节的, 因为生物神经网络的研究思维也是一个一个搞清楚网络的连接,搞清哪个细胞是输入, 哪个是输出。 来自这方面的观点认为, 如果我们能绘制一个神经元之间联系的精密地图, 我们就搞清楚了大脑是怎么回事。 这种观点又叫connectionsim。可惜的是这个工作太艰巨,目前离这个目标还非常遥远。
生物对神经网络解释最有意思的现象还是学习,神经细胞之间的连接-神经突触是随时间不停变化,这种微妙的变化由神经活动所致,一个细胞经常和另一个细胞一起放电,他们的联系就加强,因而他们所代表的信息就联系起来,这就是学习的基础(Hebbian learning)。
生物学家的工作是整个学科的脊梁,尤其是有关神经活动成像的工具。 没有光遗传这些生物技术的开发, 人是无论如何可以直接看清大脑网络里到底在干什么的。 还有钙离子成像, 神经白质成像等, 没有神经生物学家日复一日的工作, 我们对神经网络的思考只能是一种YY, 而人工智能也难以有更长远的发展。
光遗传, 即用光对神经细胞的离子通道进行有效控制而操纵神经元的手段,是研究神经网络的神器之一
从信息角度看神经网络
从信息学的角度看, 神经网络这个东西就是整合各种信息的工具。 生物进化出神经网络, 是因为他们所面临的信息错综复杂, 而如何把不同的信息整合在一起, 判断谁是猎物谁是天地什么时候该走什么时候该留, 事关生死。 那么整合信息, 就是第一要务。
信息学喜欢从贝叶斯分析的角度看神经网络。所谓贝叶斯分析, 就是把新增加的证据和之前形成的信念不停进行综合,来做当下的决断。要做这种综合, 显然一要能够不停收集新的信息,二要储存和调用之前信息,三要根据前两者对未来做出预测并行动, 最后要能够根据之前信息改变现有网络的状态 , 这三种分别对应感知,记忆,行为和学习。
感知信息要做到尽量精准的反应与决策相关的外界信号的特征,如在人海中抓取出一个美女。 处理信息在做的把之前的经验和现在的信息结合在一起预测未来,如你知道根据以往的经验美女难追, 但是这一次美女特别热情所以你预测她和之前人不同。 最后根据这个预测进行有效的行动,并根据反馈进行学习,比如还是失败了或被骗了钱, 那就加固你的信仰-美女难追,如果成功了,就修改之前的信仰-美女也是可以追的。 这样一个精美的框架不仅给生物神经网络的运转提供了天衣无缝的解释,而且也与机器学习里的统计学习理论不谋而合 。 用这个框架我们可以很好的推测大脑是如何把所谓视觉听觉嗅觉信号综合在一起的,我们为什么要思考要理解世界,我们为什么既关注过去也关注未来,一切都是为了形成一个更准确的对世界的建模, 来预测, 预测,预测。
贝叶斯公式- 把新的证据和旧经验结合的概率方法
作为AI基础的神经网络
AI这个东西, 的确是靠着神经网络的功力得以发展壮大, 不过它最初倒不是模拟神经网络, 而是想要直接做出一台会思维的机器, 可惜人类的思维毕竟有瓶颈。 我们发现还是要借助仿生,从生物那里吸取营养, 于是有了人工神经网络。因此, 无论人工智能无论如何吹它和其他门类神经网络的不同, 都不可摆脱其仿生基础。
人工神经网络的第一个里程碑是感知机perceptron, 这个名字其实有点误导, 因为它根本上是做决策的。 一个感知机其实是对神经元最基本概念的模拟 ,都未必有多少网络概念,他就是一个自动做决策的机器。
比如说你要决定今天出不出去看电影, 你要考虑3个因素, 一个是女朋友在不在, 一个是电影好不好看, 另一个是今天有没有工作, 这三个因素每个人的权重都不同,有的人看重女朋友, 有的人看重工作,所以权重就不等, 最后每个人根据自己的权重做出0或1,去或不去, to be or not to be的决策。那么你怎么做呢? 你把三个要素按照它们需要的权重加和在一起, 在把这个分数送到一个叫sigmoid的门面前得到去或不去的决定, 工作原理如上图。
比单层感知机更复杂的多层感知机-或者我们常说的深度网络, 是进行数据处理和模式识别的利器。 深度神经网络之所以能够处理这些数据类型,主要是因为这些数据本身具有的复杂结构很适合被NN识别, 而人类不需要预先设计识别这些结构的函数而是任由网络学习, D-CNN 深度卷积网络能够同时看到一个图像从细节到抽象的结构,所以能够抓住一些我们人类都说不出的细节。
DCNN 深度卷积网络,信号在多级网络里一级级传递, 从而使得从微观到宏观的特征都得到分辨 。 每一层神经元之间没有相互连接。
而RNN- 反馈式神经网络(每一层神经元之间有相互连接)则适合处理sequnce序列类的数据, 发现序列内部的时间结构。
RNN 之所以具有这个能力,就是因为网络内部通过自反馈, 具有之前各个时间点的输入信息, 因此它可以从无限久远的历史里推测系统的未来,RNN与之前的卷积网络相比最大的特点是它包含了动力学特性,如果说卷积网络是任意函数逼近器,那么RNN就是任意程序逼近器。 犹如包含某种工作记忆。用一个比喻来说, 就是RNN犹如一个宽阔的池塘宁静的水面, 当你投入一个石子, 激起的涟漪会在水池里不停反射传播, 这是对石头进入那一时刻信息的保存, 如果之后在落入一个石头, 那么它再度激起的涟漪会和之前的水波叠加作用, 形成更复杂的相互作用和纹样。
RNN示意图, 同层神经元之间有相互连接,从而使得历史信息在网络里向回声一般交替传递
RNN 具有相互连接的反馈式神经网络也是最接近生物组织神经网络的人工神经网络, 具有更多的未来潜力,只是它的训练比feed forward network更复杂。
人工神经网络的训练就如同生物神经网络的学习, 都是一个不停试错并减少错误的原理, 不过人工神经网络的方法更加简单化, 比如gradient descent,就是说在参数空间里寻找使得错误减少最快的方法改进。
人工神经网络对于生物神经网络的奇妙之处在于, 它反过来启迪了生物神经网络是在干什么的, 就好像费曼的那句话“ 你要想真正理解一个东西, 就造出一台”。
不同领域的神经网络的交叉
神经网络这个东西是最能体现跨学科交叉的概念之一。既然自然界选择这样一种结构作为生物决策和智能的必杀器, 必有其道理, 人类只模拟了十之一二,配以强大的计算机集群,就能够产生阿法狗这样的利器, 其未来潜能未曾可知。
其实各种角度的神经网络,是互相交叉, 你中有我, 我中有你的。比如物理的神经网络, 和信息论的神经网络有非常紧密的关系。 而它们都与生物神经网络和AI有千丝万缕的联系。AI里最近引入的注意力,记忆等算法, 也都能找到其生物学对应。区别只是AI并不关注那些生物的限制, 而可以通过任意虐计算机在一些局部领域超越生物。
各个领域的神经网络都以“学习理论”为核心, 物理里叫做寻找能量最低的解, 生物里叫神经可塑性, AI里叫深度学习,其实都是把网络理解成一个根据外界输入不停调整的变化过程,不同学科对这过程的最终目的提出不同的解读。
各个学科眼里的神经网络你中有我,我中有你的关系在AI里体现特别深刻。 比如, 目前的人工神经网络不仅加入了记忆, 还加入了注意力, 甚至加入了好奇心, 一个不懂AI的人很可能误解为这是心理学研究, 而事实上, 心理学研究的人也可以从这些AI里得到启迪。
回到那个深刻的问题, 神经网络为什么有作用? 单独站在一个学科的角度绝不可能明白。 人工智能的人研究了半个世纪, 最终回到类似生物网络的结构, 忍受因此带来的复杂度, 这背后必有其深刻的原因。 这个深刻的原因只能通过物理和复杂科学揭示。 为了一个简单的任务,生物进化出那个复杂的网络,为什么? 这就与生物要适应多种而非一种复杂的环境有关, 或者说适应性, 或者说鲁棒性, 一个没有适应性的生物是没有前途的。 同理,一个没有类似生物的适应性和鲁棒性的AI也走不了多远。 神经网络的功用正是由于它引入了生物复杂系统的基本原理, 虽然只是冰山一角。
也正如前文不断提到的, 从各个角度对神经网络理解的突破, 会很好的促进其他领域的理解。现在人们对AI的热情容易让人忽略了其他几个角度, 而单纯把神经网络变成一场集体调参数的盛宴, 则对整个领域来说是某种损失, 减少了许多发展的可能性。
结尾放一则广告:
铁哥正在和一个因特尔出来的神经网络高手合作一个RNN的项目, 训练一个生成语言的RNN模型,并利用铁哥导师的核心技术高维数据分析与非线性动力学理解网络处理语言的机制。 最后还会在这个网络里嵌套一个仿生物动态神经细胞连接的模型, 看这样的网络是否具有类似大脑工作记忆的功能从而可以更灵活的处理信息,以及是否在自然语言理解上具有优势。 希望有兴趣的同学与我联系视情况加入项目,从中学习神经网络和高维数据分析的核心技术。 不过需要有一定基础哦。