查看原文
科技

香港大学马毅:如何理解智能的本质?

知乎日报 知乎日报 2024-07-17
点击上方卡片关注👆
7 月 14 日,第三届「知乎 AI 先行者沙龙」在深圳举行。知乎邀请众多 AI 行业从业者、专家、学者齐聚一堂,用最前沿的观点和最专业的思考,共同探讨大模型应用的新风口。
本届沙龙以「探航」为主题,知乎高级副总裁、社区业务负责人张荣乐出席活动并致辞,香港大学计算与数据科学学院院长马毅、RWKV元始智能联合创始人罗璇、粤港澳大湾区数字经济研究院基础软件中心首席科学家张宏波、OPPO AI 中心技术战略规划总监陈晓春,分别围绕人工智能的本质、端侧模型与硬件的结合等议题进行主题演讲。

其中香港大学计算与数据科学学院院长马毅演讲主题为:探索智能的本质
以下为演讲实录。

各位知乎的朋友大家好,很高兴能够在知乎 AI 先行者沙龙与大家相会,因为行程安排紧张,很遗憾没有办法来到现场和大家面对面的交流,不过我也会开通一个知乎账号,未来有机会在知乎上跟大家进行更多的相互学习和探讨。
知乎运营的老师告诉我,前段时间有一篇关于我的媒体采访文章在知乎社区引发了广泛的讨论,最近也陆续有很多网上的朋友通过各种渠道告诉我,说他们开始对智能的原理性的东西感兴趣,有越来越多的年轻学者愿意思考,做一些更深层次的研究,这让我非常受鼓舞,也让我决定多讲一讲我个人对智能本质的看法和思考,所以也就有了今天这个演讲的题目「探索智能的本质」。
智能或者人工智能在最近几年引起大家广泛的关注,发展也非常快,大家对智能也有很多不一样的理解,今天也想跟大家讨论一下这方面的问题。
我叫马毅,是香港大学计算与数据科学学院的院长,以前在加州大学伯克利电子工程与计算机系任教,最近也创办了一家公司,探索智能技术的公司,叫做忆生科技。

今天的主题也很简单,我们为了探索智能的本质,必须回到理论,真正建立一套系统的理论把智能的本质搞清楚。
大家看看生物进化的历程,生命就是智能的载体,整个自然界生物的进化,就是智能的机制起作用的结果,从低等的生物到高级的生物。实际上它这些机制大家都还比较清楚,比如说通过遗传物质传承生物物种的记忆给下一代。但是它也产生变异,在变异过程中通过自然选择,也形成了物种进化、改进,所以这个系统就带着智能的特征。

整个自然生物界的进化,从最低等的单细胞生物,它主要依赖于先天基因的遗传传承下来。它的改进是通过变异,通过物种自然选择来进行,也叫 Phylogenetic,主要靠物种先天的基因传递来适应,个体的智能主要来自这个。逐渐的演进,大家看到这个过程,越来越高级的智能生物,它越来越依赖个体进行后天学习与适应,越来越改进自己的先天知识,使得它的适应性更加广泛、更强。为什么生命会在智能的机制下进化,能够越来越好?实际上跟一件非常本质的事情有关,就是我们的世界、我们生活的环境,它不是随机的,而是很大程度上是可预测的,生命、生物也就利用了这一点,使得它能够学习到环境中有利于它生存的信息,这是一个比较重要的观点。

后来随着初等生物进化到人,从一定意义上,人的智能也产生了巨大的飞跃。人的智能的发展,一个最显著的特征倒不是个人作为生物个体的发展,它主要是一个群体智能的发展,人变成了社会的动物。尤其是发明了语言,他们的知识可以开始相互交流、相互分享,这是非常有力量的。以至于发明了语言以后,甚至开始出现了抽象的能力,以及数学、科学等等有群体知识的积累。实际上它所遵循的机制也是一样的,就是智能的机制在里面起作用。所以人的群体的智能,以及甚至科学的发展、方法都是智能机制起作用的结果。

这是整个历程,从有生命到高等动物、到人、到整个社会的发展。一直到了大概上世纪 40 年代,有一帮科学家就开始探讨,由于对生物界智能的关注,他们非常关心,他们就提出能不能把动物或者人的智能转移到机器的身上,通过机器来模拟这些智能的机制和行为?就带来了 40 年代一个非常蓬勃的发展期,最早的人工神经元和计算模型也在那时候被麦卡洛克和皮茨两个人提出,同时维纳、香农、冯诺伊曼、图灵等人就开始研究智能系统通过生物界的启发,它的各种特征和机制是什么,所以各自都提出智能系统不同的特征。比如说图灵就关心计算如何通过机器实现,维纳提出控制论,动物都是通过反馈、纠错来学习改进的。包括冯诺伊曼的博弈论也是,我们通过博弈,跟外部环境或者对手博弈,能够不断地提高我们的决策,这都是一个智能系统所展现出来的一些机制和特征。还包括香农说,我们都是从外部世界学习有用的信息,这些信息如何组织管理、衡量度量,这是《信息论》所关心的事情。他们那时候关心人也好、动物也好,如何通过感知学到外部世界有用的知识,能够对外部世界进行预测,就是这个层面智能的特征。

大家也知道 40 年代之后,有了人工神经元的模型之后,开始建立了系统和网络,有了神经网络的概念,在过去大概 80 年的时间,神经网络几起几落,这是一个基本的进展历史。最早的 practise 由于比较粗糙,效果并不是很好,60 年代,导致了 70 年代进入了一个寒冬。当然理论上也发现神经网络也不是无所不能,还是有它的局限性,也让大家对神经网络的能力,在 70 年代产生了一些质疑。但是 80 年代、90 年代还是有不少人在坚持,比如辛顿、Lecun 等等,而且在设计越来越好的算法,如何去训练神经网络,包括 Backpropagation 等等。到 2000 年的时候,神经网络又进入一个寒冬,主要是原来他们在做分类的问题上,出现了一个支持向量机的工作,由于它的数学理论比较严谨、算法比较高效,所以对神经元也带来一些冲击,神经网络的研究进入第二个寒冬。

自从 2010 年以后,神经网络随着数据以及算力的加持,它的性能得到逐渐的提高,带来了下一代神经网络现代的蓬勃发展。到目前为止,基本上大家在相对统一的神经网络框架,比如说 Transformer 下,不管是文本、图像,甚至在一些各方面的科学数据上都取得了非常显著的成效。

但它们有一个共同的特征,就是基于这些深度网络的人工智能系统都是基于经验或者试错的方式设计出来的,所以有些人把这个模型叫做黑盒模型,甚至有更极端的观点认为这种改进更加接近于炼丹术。
从科学的角度来讲,为什么一定要把黑盒变成白盒呢?黑盒没法解释,它很难在性能上、安全上有所保障。另外对它的改进成本又很高,很多东西不是不能改进,但是代价很大,本身它的系统有很多缺陷,它没法自主、持续地学习。另外有一个问题就是很容易被人利用,任何黑盒的东西,大家不清楚机理的东西都容易被人利用,来制造一些恐惧。
如何把黑盒变成白盒呢?知道机器智能或者机器学习到底在做什么,我们很可能就要问几个非常重要的本质的问题。智能也好,或者机器学习也好,到底要学什么,到底要做什么事,它的目的是什么?从这个角度来讲,信息论就会给我们一些比较好的指导。实际上我们都是为了得到外部世界有用的信息,从这个角度实际上是可以讲得非常明白的。当目标清楚之后,下一步就是怎么学。待会儿我们可以看到,实际上神经网络只是通过学习达到这个目的的一个手段,通过这个目的就理解就知道神经网络到底在做什么。有了手段,我们如何保证最后学到的知识是正确的、跟外部世界是一致的?它必须要有自我纠错的机制,要保证我们学到的知识真正能够跟外部世界观察的东西对齐、自洽。
我们要学什么?我们之所以有智能、之所以有生命的一个根本原因,很简单,我们世界不是随机的,而是可预测的。所以从某种意义上说,我们学习的目的就是要找到这些可预测的东西。

实际上这件事情也不是新的东西,整个生命开始,人也好、动物也好,这个世界很多东西都是可预测的。比如说气候,一周、一年的气候,斗转星移、季节变化,动物都知道。这些都是可预测的,不是说明天的天气跟今天毫无关系,如果这样的话,我们也用不着记住任何东西了,如果是这样的环境,我想世界上也不可能有生物,也不可能有智能。另外还有很多物理现象,比如说 Gravity,物体的运动、自由落体等等,实际上每个动物,包括我们每个人,对这种物理现象,都在大脑里面有一个非常精准的模型,当一个东西掉下来的时候,我们自然知道怎么抓取它,速度、位置我们都判断得非常准,只是我们没有用微分方程或者数学的语言描述出来。包括狗、猫,它们都是牛顿,都早就有了对重力的模型在大脑里面,这就是它非常有利于精准预测外部世界会发生什么的模型,我们把它叫做世界模型。另外动物天生的会对有规律、可预测的事情产生记忆,这是在巴甫洛夫的反射试验里面就得出的结论,一个物理现象、一种因果关系自然会记住。
这些现象我们怎么把它从数学和计算上统一起来呢?最近大家发现,在数学上所有可预测的信息都是通过这些高维数据内在的低维结构所体现出来的。比如说一个物体在一条直线上运动,不受外力影响,我们很容易判断它在下 5 秒钟出现在哪里,它不会出现在任何随机的地方,这个世界不是随机的。当然还有更复杂的可预测的东西,它可能不是一条直线,很可能是一个平面,或者是多条直线,或者多个平面、多个曲面等等,数据里面很多的信息就是通过这种结构所体现出来的。

我们学习就要从这些观测到的高维数据(比如图像)里面的低维的结构学到,学到以后还要把它组织好、表示好。比如说非线性的变成线性,不正交的变成正交。如果这是一个目的的话,我们怎么从计算上去实现呢?它通过什么样的机制实现,怎么去组织,去找到这些结构,同时把它们组织规划好?自然界,包括人工智能,我们看到这么多的网络、算法,它的一个本质共同点,它们都在做同一件事情,就是对同类的物体、数据、信号相吸,异类相斥,把相似的东西聚在一起,不相似的东西分开,基本上就是做这个事情。

这还只是一个原则或者想法,怎么通过可度量、可计算的方式做这件事情?这就跟信息理论要做的事情相关。我们怎么去度量这件事情,我做得好还是不好?信息理论提供一个平台,这件事情也很简单。比如说我们的世界,如果我们什么都不知道,什么事情都可以发生,你可以想像这个世界是整个蓝色的区域,任何一个球都可以发生,代表这个世界。从这个意义上讲,如果任何事情都可发生,我们就不需要记忆了,反正下一秒钟任何事情都可能发生,是随机的,记忆或者智能就无从说起。我们的世界因为不是随机的,它是可预测的,可能发生的事情就是这些绿色的球,在一些很低维的、很少量的区域才会真正发生。如果我找到这些绿色的区域,这就是对这个世界的信息有所增加,所以这叫信息增益。或者从表达的角度,我就用不着去把每个球都记下来,我只需要记住这些绿色的球,对这些球进行编号,球的编码量就会减少。
所以你会看到,对世界的信息在增加,实际上也是一种编码减少的过程,就是一种压缩的概念,这个世界是可预测的,发生的事件存在的分布是被压缩的。这是第一点。
第二,当我找到这些绿色球所在的地方之后,我还需要在我的大脑里面把它们组织好。比如说这两条线,一个代表苹果,一个代表梨子,我要把苹果和梨在我的大脑里面最大限度的分开,因为它是属于两类不同的物体,所以我们的大脑里面很希望我们对这两类物体的表示是非常正交,是不相关的,所以就把它变化成右边这个图像。我们学习的本质,就是这个事情,把同类的压在一起,把它们线性化,不同类的尽量分开。

怎么高效做这个事情?一个很简单的办法,就是逐步去做。初始的时候可能离我们的目标还比较远,我们一步一步的对同类的东西进行去噪、压缩在一起,把不同类的东西逐渐的分开,这就是一个逐步迭代的压缩和去噪,去优化这个编码率,让信息增益得到增大。

一旦这件事情明确,第一我们要学什么,第二是通过逐步迭代学习,事情就变得非常清晰了。比如说这个目标函数跟我们优化的编码率是相关的,我们要对得到表示的编码率进行优化。学过优化的同学就知道,逐渐优化的方法,就是做简单梯度下降。
turns out 深度网络的本质就是在实现这个逐步迭代优化的梯度下降算法。每一层就跟我刚才的图像一样,就是一步一步逐步的在进行优化,把数据的分布、数据的结构找到,然后逐渐地朝着我们所需要的方向去变化,所以每一层都是让这个分布变得越来越好。

这是让编码率减少,同时让它学到的表示变得越来越好。如何保证你最后得到的记忆是正确的呢?你不能通过压缩损失了一些信息,你不知道。其中一个方法来检验你学到的记忆,或者学到的数据的结构是正确的,一个简单的解决方式就是用它预测回到外部世界,帮它预测你所记忆下来的规律,是不是能够正确的预测现实世界会发生的事情,也就是所谓的解码,或者叫做生成、预测。
从外部的信号进入大脑,我们进行识别、记忆,然后再通过我们的识别或者记忆,对下一步会发生的事情进行重复、仿真、预测或者重现,这就是一个生成的过程,或者在数学上叫做解码的过程。整个过程从外到里、从里到外,就是一个自编码的过程,能帮助我们通过内部世界的模型,对外部世界进行预测。
现在训练一个神经网络系统,从 X 到 Z、Z 到 X,我们提供相关的数据,让整个系统进行全局优化。但是在自然界,我们有时候并没有这个 option,相当于我们在训练一个神经网络的时候,对这个网络来说,我们是上帝,我们在纠正它的错误。在自然界,因为动物没有人去教它,它在一个环境中必须自己学习,这种机制是怎么回事呢?

在 40 年代维纳或者冯诺伊曼,他们意识到自然界自主学习的机制,一定是一个闭环反馈纠错、自我改进,通过反馈控制和博弈来自我改进的机制。大家知道自然界所有的智能系统都是利用闭环机制来学习的。而现在的人工智能系统几乎没有,尤其现在大家看到的这些大模型都不是这样的机制。所以对智能的认识一定要搞清楚,大家想真正看清楚智能,不要只讲概念,不讲计算、不讲实现,对智能的认知必须建立在对实现智能计算复杂度的正确认知上,你不能说压缩很重要,我做压缩。最早提出压缩概念的 Kolmogorov 或者 Solomonoff,他们提出来的概念是根本没法算的,对工程实践一点指导意义都没有。直到图灵提出图灵计算机,好像能计算,告诉大家什么东西是可以计算的,通过机器来实现。但是即便这样,有些东西你也算不了,它的复杂度足够高,它是 NP 的 intractable,如何找到哪些问题是tractable,是能够通过普通的算法实现的。神经网络做的事情不光是 tractable,tract 都不行。像这种高阶复杂度的算法实现不了,自然界没有这个资源,包括 DNN、BP,它都要 Scale 到百亿、千亿的参数,复杂度高的算法是没法实现的。即便这样,深度网络也好,反馈传导也好,这些东西自然界也没法承担它的成本。大家知道自然界纠错的机制都是一种闭环的机制,我们也不知道是不是这就是所有的。

有了这些背景和认识,最后我想提一下,真正的智能是什么东西?这里我们提出一个对智能的定义,智能的系统必须具有自主改进和增加自身知识的机制。任何一个系统,不管它能力多大,知识多少,只要不具备自主纠正或增加知识的计算机制,它是没有智能的。所以我们经常举的一个例子是 ChatGPT 和一个婴儿,谁更有智能、谁更有知识,大家去想一想。
从某种意义上说,我们认为智能是能够增加知识的,是知识的微分,知识是通过智能活动所积累起来的,它是智能的一个积分。

为什么需要严格的定义,把这些理论开发出来?因为没有理论的智能研究,就如同一群瞎子在玩一个黑盒子,盲人摸象,大家就会说一些非常不靠谱的话,认为自己看到的那一块就是智能的整体、系统的整体。我们只需要深度网络,「Deep network is all you need」,「Reward is all you need」,「Attention is all you need」,「Foundation model is all you need」,一些非常片面的思想就会变得非常流行。当一个东西是黑盒子的话,大家就会感到它很神秘,比如大家说 ChatGPT,有人说大模型智能将超过人类,甚至已经具有人类自主意识了,会像原子弹、病毒一样可怕,会毁灭人类,现在不光是大众有这种概念,甚至有一些头部的研究人员也有这种观点。实际上从我们现在的了解,目前为止所有的人工智能算法,包括深度网络在做什么呢?无非在做数据的压缩而已。

今天的演讲给大家梳理一下人工智能的发展历史以及相关的概念。我们非常兴奋地看到最近这几年的发展,实际上找到一个完整的甚至统一理论的基石是可能的。它也开始慢慢揭示了智能的本质,它的最本质的一些计算机理、原则,非常统一的原则和机理,只有当我们把这些原则和机理真正揭示出来,理解清楚以后,才能彻底地把网络智能、机器学习、机器智能的本质搞清楚,就像理查·费因曼讲到的「What I cannot create,I do not understand」(如不能自己创造,则无法真正理解),一定要通过第一性的原理,通过演绎的方法,把整个学习系统计算机理和机制搞清楚。
只有我们搞清楚,真正理解了,才能创造新的东西,甚至才能远远超越目前的人工智能的系统。


知乎热门文章

外国人听我们讲汉语是一种什么感受?

如果给你一千万,让你辞掉现在的工作,你愿意吗?

是什么极小的细节让你对别人好感倍增?
本文内容来自「知乎」
点击上方卡片关注
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存