ilya sutskever最新专访中的一些感悟-智能涌现和不确定性
欢迎点击上方蓝字关注 点我关注加星标
第一次尝试使用ChatGPT
5月份,我第一次尝试使用ChatGPT。开始时,我测试了一些面试的专业知识问题,包括一些细节问题,ChatGPT都回答得非常准确,这让我感到惊讶,因为它的表现远远超出了之前我所体验的任何聊天机器人。
对于文本生成,我测试了写高考作文,结果完全超乎想象,这种文笔水平,我自己写绝对写不出来。
随后,我又测试了它编写Python数据分析代码的能力,结果同样让我震惊。以前,我记不住的API需要通过搜索引擎费劲地查找,而ChatGPT却能直接生成准确的Python代码,使我能通过反向学习的方式快速掌握,这意味着我可以从它提供的结果和示例中学习到API的使用方法。
使用ChatGPT获取答案与传统搜索的最大区别是什么?
与之前使用过的问答机器人相比,ChatGPT能够理解上下文,进行连贯的对话,并且能够记住你之前说过的内容。在对话过程中,你不需要重复你之前的问题或内容。
但最让我震惊的不是文本生成和写诗写作文,而是ChatGPT似乎真的具备了逻辑推理的能力!在编程、逻辑推理等方面,它都取得了巨大的进步,即使是对于一些简单或略带深度的逻辑问题,也能给出非常可靠的答案。
这对基于搜索框和关键词的传统搜索模式是一个巨大的打击。ChatGPT改变了信息和知识获取的方式,它不再仅仅提供一堆索引结果等待人工筛选,而是能够直接精准地给出你想要的答案。这种感觉就像是“我被理解了”,预示着下一个超级流量入口可能会发生改变,尤其是对传统搜索引擎巨头如谷歌的影响是非常巨大的。
众所周知,最早的信息搜索是通过门户网站,如雅虎、搜狐,它们为用户索引了一些常用网站,方便查找信息。其后,谷歌、百度等搜索引擎通过分布式技术和机器学习,对互联网信息进行索引和学习,以便更好地匹配用户的搜索关键词。再后来,像抖音、头条这样的平台通过推荐系统(信息推荐),根据用户的兴趣自动推送信息。而以ChatGPT为代表的AGI将可能成为下一代信息和知识获取的超级平台。它整合了过去所有的信息搜索和分发能力,并改变人机交互的方式和入口,成为一个巨大的流量引擎。即便它不能成为超级入口,它也能赋予所有行业新的能力,并蚕食很多传统的搜索流量。
有人说,ChatGPT的结果需要人为验证,是的,我们不可能完全信任ChatGPT给的结果,但是,搜索引擎的结果同样需要人为验证,所以,这并不是ChatGPT独有的缺点,它本身只是信息和知识的可靠性问题。并且,很多时候用户只要有用就行,而不是要绝对正确!
神经网络的量变到质变
ChatGPT这些令人惊艳的能力能够实现,关键在于自然语言处理和深度学习模型的进一步突破。
我们谈到的模型,实际上就是指图中显示的层级结构和连线(连线上储存的权重,就像神经连接时所需的激活电量一样)。
如果你理解神经网络的基础原理,并且关注了近十年深度学习以及行业的发展,就会大致知道深度学习从2012年开始流行起来,到2019年后开始逐渐冷却,直至2022年GPT-3.5问世,迅速走红全球,成为首个两个月内用户突破一亿的应用!这并不是一个从0到1的过程,而是从1到10000的过程。
首先,谈谈大背景。人工智能并不是什么新鲜事物,计算机发明后不久它就被提出来了。总体上可以分为三大学派,即符号主义、连接主义和行为主义。
符号主义
符号主义是将公理、定义、语法等一系列人类已知的知识通过符号抽象化(就像数学中引入众多的符号、公式、概念一样),输入到计算机中,并抽象成计算机可以存储和计算的数据结构,从而使计算机能够进行推导。
尽管这个学派十分严谨,并且其方法也非常符合人类对逻辑和语言的理解,但遗憾的是,它的复杂度太高,缺乏通用性。几乎在任何领域或场景中,都需要重新编程和适配。你可以这样想象:假设你是一名万能翻译员,按照人类学习语言的方式,你可能需要记住世界上几百种语言的语法,但仅仅掌握语法只是基础,并不能保证你的翻译工作做得出色,对吧?只有那些在文学、科学等多个领域广泛学习和积累语料的人,才能完成地道的翻译。
连接主义
ChatGPT正是基于连接主义。它强调通过仿生学习,模拟生物学习机制,即以著名的神经网络为基础,发展出一系列深度学习统计学习算法。
语言学家乔姆斯基认为统计方法并不“优雅”(elegant),只是在模仿而非理解。会骑自行车并不意味着理解它,能够解释自行车为什么不会倒,才是真正的理解。
本质上,神经网络和统计学习这一人工智能之路是通过数据输入、数据拟合(模型训练)、数据预测(模型推理)的学习模式。这看似与逻辑推理无关,因为符号注意看起来更有辑推理能力。符号主义学派以数理符号为基础,通过加入更多的符号推理逻辑,类似于人类学习高等数学的各种符号推理证明,或学习英语、法语、日语中的语法结构,让机器也直接通过这些符号结构信息实现智能,
但这条道路最终没有成功。例如,IBM的沃森项目最终还是失败了。符号主义实现人工智能非常复杂,缺乏通用性和适应性,不能自动学习。对三大人工智能发展路径感兴趣的读者,可以阅读尼克·波斯特罗姆的《人工智能简史》。
行为主义
行为主义关注应用和身体模拟,认为控制论和感知-动作控制系统是人工智能的关键。这一部分更多应用于强化学习、机器人控制等领域,事实上,大模型也利用了强化学习。
当前,大模型还加速了各种机器人控制技术的研发,比如机械臂、行走机器人等。连接主义和行为主义本质上是一套模仿现实世界生物的理论体系。
智能涌现
由于以往的深度学习模型都未能达到奇点,每个特定领域问题(例如人脸识别系统)都需要训练一个专用模型,人力成本很高。人们往往因为看不见,就不相信它的存在,甚至包括一些大公司的CEO们也是如此,可能根本没有人会相信所谓的大模型。
而OpenAI通过将网络规模扩大到与人脑神经元连接相当的量级,使得这个大模型能够像人脑一样工作,能够使用一个超大的模型来完成任何领域的任务,如图像识别、分类、文本理解等等,而不是像之前那样,每个子领域问题都需要单独训练模型和进行参数调整,结果,出乎意料,智能涌现(当然,事情并没有这么简单)。
以ilya sutskever为首的OpenAI的科学家们作为神经网络大模型的信仰者,走通了这条道路。不要以为这是一夜之间发生的,他们坚信通过构建更深更大的神经网络模型结构,就能够建立通用智能(AGI)。从目前的趋势来看,连接主义和行为主义在通用人工智能领域已经占据了更多优势。
有时候,正是因为相信,我们才能看见!我认为这句话值得每个人去不断体悟。我认为,这就是认知的真谛!
对于事物的真正认知,我认为可以分为三个层次:
第一个层次是理性理解,即用大脑理性地理解一个概念,理解事物,大多数人的认知只停留在这一层面。
第二个层次是情绪理解,包括喜欢、害怕、恐惧、相信、自信、接纳等情绪层面的认知。
第三个层次是身体理解,你的潜意识和身体会给你发出信号,像膝跳反射那样,你通过身体的实践反馈、调整姿态,不断解决那些阻碍你达到目标的问题,加强情绪和理性的认知。
这是一个完全倒三角的模型,因为它与我们研究事物的过程完全相反。例如在科学研究中,我们首先发现一些行为或现象,第二步是情感上的反应(比如觉得真有趣),第三步才是对现象的理性理解。
所有的事情都没有那么简单,如果你只是停留在第一个认知层次,你认为神经网络是合理的,大的方向是对的,但是,有用吗?可能对于你来说,并没有任何用处!
在通往目标的道路上还有很多绊脚石,往往还需要大量的问题需要解决,并且每一步都要做正确,所以我认为这并不是从0到1,OpenAI只是坚定在解决通往目标路上的绊脚石!这就像15年前的IPhone,肯定用的不是很流畅,但它确实颠覆了洛基亚,颠覆了手机行业。
对不确定性的容忍
我们都知道,在经典物理中,比如牛顿力学里,所有的事物都是确定性的,一旦给定条件,就能得到一个确定的结果。作为受过经典物理思维训练的人,我们就像解题者一样,认为给定输入就必然能得到确定的输出。但是,对于大模型而言,对相同的输入,它可能会给出不同的输出。它所做的只是选择了当前概率最大的结果,因此并不意味着小概率事件不会发生。这就是为什么即使是同样的问题,你问ChatGPT两次,得到的回答可能不同,因为它选择了另一种概率的结果。
在经典计算机和编程模型中,程序员通常从确定性编程学起,对于给定的输入,经典编程范式总是提供确定性的输出。学习编程,必须强调逻辑的正确性和结果的一致性。经典计算机专业课程,一定是从下图中第二象限开始学起。
随着大模型的发展,软件程序已经从确定性范式,走向了No(Not Only)确定性范式,也就是Karpathy提到的Software 2.0。
从我个人直觉上的感受,逻辑推理就像一条思维链,人们通过学习理论知识,然后在思考过程中进行思维链条的链接,最终形成一个逻辑上连贯的链条,这个链条其实都是后天通过学习符号(文字)得到的。神经网络模型同样是先学习文本知识,然后在推理时挑选概率最大的节点,最后给出答案。没有科学家能证明,人脑在产生逻辑推理时不是通过这种方式工作的!
因此,之所以ChatGPT给人一种具有逻辑性的感觉,可能是因为它学习了海量的信息,以至于你提出的大部分逻辑问题都是以前人们遇到过的,同时大模型对这些信息进行了抽象和高度压缩,从而沉淀了一些知识和模式,最后它便能以逻辑上连贯的方式产出文本序列。
也就是说,大模型的逻辑推理能力,必须通过概率来解释,甚至大脑形成逻辑的形成也必须通过概率来解释。我记得高中数学中的数列证明,往往只需那么一丝突发的灵感,就能找到证明步骤中关键的环节,但这似乎就是基于概率的。
实际上,现实世界亦是如此,不确定性的事件远多于确定性的事件。但是人们往往害怕不确定性,以至于我们的大脑可能有意无意地过滤掉那些不确定性因素,这样我们才不会感到那么焦虑。
以开车为例,人类司机和自动驾驶谁更安全呢?实际上,如果进行开车比赛,让自然人和自动驾驶在1000种不同路况下连续开20000次,最终发生车祸的概率,自动驾驶的概率可能更小,你必须相信工程师们肯定尽可能多地进行了场景覆盖测试后,才会开放使用。但是,你愿意接受自动驾驶导致的车祸死亡吗?你自己开车导致的车祸死亡和自动驾驶导致的车祸死亡,虽然都是概率事件,但你可能仍然认为自己开车更安全,这是一种主观感受,取决于你是否接受,这是一种情绪。
我们如何才能提高对不确定性的容忍度呢?
因为每个人的经历完全不同,同样的方法不会适用所有人。
就我个人而言,我一直希望能不断强化的点:
保持好奇心,我还是喜欢保持对新鲜事物的敏感,人天生就有好奇心,但是随着年龄增长,人的精力会被分散,好奇心力值会一直下降,但是必须留一点时间满足好奇心,这样才不至于后知后觉,无法容忍一点点变化。 保持专注力,对于工作或者说项目,最好保持高度专注,不能频繁的切换方向,要有足够的积累,效率提高,这样才能有稳定的内核,人总是因为有一些擅长或者积累的事情,才会内心安定一些。 保持接纳心,有时候你必须从情绪上接纳某些人和物,否则你永远也不可能容忍一些事物。
以上1和2似乎是矛盾的,但这可能才是真正的壁垒。
往期精彩内容
欢迎点赞,收藏,转发,在看