2023年伊始,ChatGPT引爆了社会各界对人工智能发展前沿的关注,尤其是ChatGPT背后的核心技术——大语言模型。大语言模型为什么会涌现出强大的学习能力?从复杂科学视角,AI 大模型可以看作与生态网络类似的复杂适应系统,展现出复杂系统常见的现象规律,例如涌现、规模法则等。因此,复杂系统的研究方法可以为理解和改进 AI 大模型提供深刻的洞察,并有助于构造可解释性的AI模型。
在集智俱乐部「后ChatGPT读书会」第二期,北京师范大学系统科学学院教授、集智俱乐部创始人张江教授详细探讨了“复杂适应系统视角下的 ChatGPT 与 AI 大模型”,欢迎感兴趣的朋友观看回放视频。
1972年,著名的凝聚态物理学家,诺贝尔奖得主Philip Anderson就在Science上发表了一篇影响深远的文章:《More is Different》。文章指出,我们不能指望将微观原子世界的规律了解清楚之后,就能自然而然地了解诸如细胞、大脑、城市等等这些宏观复杂系统的规律,这二者是非常不同的。 之所以简单粗暴地将细胞还原成一堆原子的集合,将大脑还原成一堆细胞的集合这种做法是行不通的,关键就在于所有的复杂系统之中都存在着涌现的特征。该文指出,“Emergence is when quantitative changes in a system result in qualitative changes in behavior”,即“系统定量上的变化可以导致系统行为上的定性变化,这就是涌现”。用亚里士多德的话来解释,就是“整体大于部分之和”,即整体上展现出了构成它的个体所不具备的新特性。 涌现之所以发生是和关系而非要素有着密切联系的。一堆电子元件的简单堆砌不能构成一台电脑,这是因为电子元件之间以及元件和环境之间存在着关联和相互作用。通过这些复杂的相互作用,系统往往表现出非线性、涌现、自组织等性质。 在其中,复杂系统的适应性能力又是一个我们应特别关注的现象,它表现为能够灵活地随环境的变化而改变。例如,一场森林大火并不能破坏整个生态系统,相反,有些时候它还会对清理杂草有很大的好处。这种灾后重生的能力就是生态复杂系统的适应性能力。著名的已故复杂科学家、遗传算法的发明人,John Holland 将这种具备适应能力的复杂系统称为复杂适应系统(Complex Adaptive Systems,简称CAS)。 那么,面对这样丰富多彩、精彩纷呈的复杂适应系统,人们又该如何对其进行研究呢?答案是——建模。即通过数学或计算机在符号世界中再造一个复杂系统,这就是复杂科学研究的内容。可以说,复杂科学数十年的发展历史就是复杂系统建模,及其对模型进行研究的历史。正是因为此,复杂科学的发展具有明显的方法、技术驱动的特点。 90年代的时候,随着计算机的普及,人们开始构建各式逼真的计算机模拟模型,于是“多智能体模拟”技术催生出了复杂科学这一门全新学科。从“生命游戏”到“遗传算法”,再到“人工股市”,这些多主体模型无一不活灵活现,将现实世界的复杂性再现到了计算机世界之中(参考《虚实世界》)。 然而,到了2000年,随着大数据的积累,“数据驱动”的复杂性研究成为了复杂科学的主流。人们已经不满足于单纯地构建计算机模型,而是热衷于针对大数据展开分析,从而试图发现真实世界复杂系统的普适性规律。例如,“规模法则”(Scaling Law)就是人们在真实数据中发现的一条黄金法则,无论是生物体还是城市,抑或是网络社区,这些复杂系统的宏观变量都会随着系统的规模而呈现幂律增长。著名的克莱伯定律(Kleiber Law)就是生物界的一个规模法则,它指出生物体规模每增长百分之一,则它的新陈代谢率仅仅增长0.75%。该定律还能推导出诸如“哺乳动物一生的心跳次数是一个常数”这样的惊人结论(参考《规模》,以及我的课程《复杂科学的前世今生》)。
论文题目:Rethinking the Structure of Stochastic Gradients: Empirical and Statistical Evidence论文地址:https://openreview.net/forum?id=9xlU4lhri9&referrer=%5Bthe%20profile%20of%20Zeke%20Xie%5D(%2Fprofile%3Fid%3D~Zeke_Xie1
论文题目:Anomalous diffusion dynamics of learning in deep neural networks论文地址:https://www.sciencedirect.com/science/article/abs/pii/S0893608022000296
现在,说到机器学习,我们就会联想到神经网络。但实际上早在上个世纪90年代的时候,最流行的机器学习算法并非神经网络,而是 John Holland 提出来的遗传算法(Genetic Algorithm,可参考《自然与人工系统中的适应》)及其扩展:分类器系统(Classifier Systems)。遗传算法是通过在计算机中再造一个由大量01编码串构成的生物种群模拟大自然的进化,让适应度高的物种自然而然地获得更高的繁殖机会,而让适应度低的物种自然淘汰。 然而,简单的遗传算法只能够解决函数优化、组合优化等问题,却很难解决机器学习问题。于是,Holland 又开创性地提出了基于遗传算法和水桶链算法的分类器系统。
论文题目:Classifier Systems and Genetic Algorithms论文地址:https://www.cs.us.es/cursos/ia2-2012/trabajos/BucketBrigade.pdf
图 17 基于遗传算法和水桶链算法的分类器系统 如图所示,一个分类器系统是由大量分类器构成的,每个分类器对应一条规则,形如if 001### then 110111。这里的"#"表示的是通配符,即它既可以代表0又可以代表1。于是,每个分类器都在实时地监测由 Input 和 Message List 中的 01 字符串信号,如果找到了if部分能够匹配上的字符串,则该分类器就会被激活,于是它的执行(then)部分的01串就会被发布到 Message List 之中,从而等待着激活其它的分类器。每个分类器有一个被分配的信用值(Credit),它是对该分类器的评估,当多个分类器都可以处理一条激活消息的时候,则系统会让信用值最高的分类器产生真正的输出(Output)到环境中去。所有的分类器会被遗传算法优化,从而进行适应性调节,这就让系统具备了自动从环境中学习的能力。 对于简单的分类任务,上述分类器系统可以工作得很好。不过对于很多复杂任务,往往不是一条简单规则能描述清楚的,如果规则过于复杂,那么潜在的搜索空间将庞大得难以想象。所以Holland认为,可以把一个复杂任务进行拆解,每一步用一个简单规则来完成,许多规则串在一起,让消息从输入开始,一直传递到输出,再根据外界反馈来获得奖励。然而,当传递链条过长的时候,如何对一条消息链上的所有分类器分配信用值则成为了一个麻烦问题。Holland于是开创性地提出,可以用自由市场买卖的隐喻,从而构建了水桶链算法(bucket brigade algorithm)。 Holland将整个分类器系统比喻为一个自由买卖的市场,每个分类器产生的新消息就比喻为一种商品,而一个长长的被激活的分类器链就相当于一条长长的产品生产链。于是,信用就变成了这些分类器手中的货币,可以对产品进行购买。也就是说,当一个消息可以激活多个下游分类器的时候,这些被激活的分类器可以通过出价多少而竞争购买那条消息。购买得到消息的分类器可以被进一步激活,于是它可以进一步生产新的产品——消息。最后,如果一个分类器产生的系统被输出到了环境,并成功地获得了正向的奖励,则该分类器会获得一笔可观的信用值(货币)。整个人工智能系统就像个纷纷嚷嚷的交易市场,盈利能力强的分类器就会被保留下来,构成强大的供应链,一旦有薄弱环节就会被其他分类器替换下去。 熟悉神经网络的读者不难看到,其实整个水桶链算法像极了今天工业界大量使用的梯度反传算法(Backpropagation algorithm)。 图 18 梯度反向传播算法示意图 我们不妨也把神经网络比喻成一个自由市场,每个神经元就是一个小商贩,它所生产的产品就是传递给下一层各个神经元的“激活”。这样,从输入开始,这些“激活”一层层地往下传递,直到输出,便完成了分类的过程。其实整个神经网络的前馈过程与分类器系统消息激活的过程非常接近,只不过神经网络中的这些神经元不能像分类器那样乱激活,只能按照层次严格地排好,并只能激活临近层次的神经元。 当神经网络产生了输出之后,反向传播算法就会运行,将“错误”一层层地反向传递给所有神经元,并纠正它们的表现(严格说,应该是神经元上的权重)。这个误差反向传播的过程也就对应了分类器系统中的信用通过自由买卖来进行分配的过程。当然,二者的区别还是非常显著的,误差反向传播算法是建立在误差的梯度基础上的,并可以通过自动微分技术(Automatic Differentiation)自动进行。而分类器系统中的信用分配则是按照两个分类器的匹配程度以及遗传算法导致的优胜劣汰而定,与自动微分比起来,则显得效率低下了很多。
论文题目:Automatic differentiation in machine learning: a survey论文地址:https://arxiv.org/abs/1502.05767
2022年11月30日,一个现象级应用程序诞生于互联网,这就是OpenAI开发的ChatGPT。从问答到写程序,从提取摘要到论文写作,ChatGPT展现出了多样化的通用智能。于是,微软、谷歌、百度、阿里、讯飞,互联网大佬们纷纷摩拳擦掌准备入场……但是,请先冷静一下…… 现在 all in 大语言模型是否真的合适?要知道,ChatGPT的背后其实就是深度学习+大数据+大模型,而这些要素早在5年前的AlphaGo时期就已经开始火热了。5年前没有抓住机遇,现在又凭什么可以搭上大语言模型这趟列车呢?