独家|GPT-4重要缔造者、OpenAI 首席科学家:人工智能不吃人
在荷马的史诗巨作《奥德赛》中,独眼巨人赛库斯·波吕斐摩斯将奥德修斯和他的船员困在他的洞穴里,意图将他们吃掉。但奥德修斯设法弄瞎了巨人的眼睛并成功逃脱。
人工智能不会吃掉我们。
文 | Craig S. Smith
随着我们飞快地迈向一个充满人工智能的未来,科技巨头、研究人员和投资者似乎都在疯狂地争先恐后地开发最先进的人工智能技术。
许多人开始质疑:这是否进展得过快,是否考虑到了风险呢?就此问题笔者(克雷格·史密斯,《纽约时报》的前记者)与OpenAI联合创始人和首席科学家Ilya SutskeverIlya进行了讨论。
Ilya Sutskever是OpenAI的联合创始人和首席科学家,也是大型语言模型GPT-4以及其公开后代ChatGPT的主要负责人之一。说他正在改变世界并不夸张。这不是Ilya第一次改变世界了。他曾是AlexNet的主要推动者,这种卷积神经网络以其惊人的性能在2012年震惊了科学界,并引发了深度学习的革命。
在笔者看来,AI发展这个问题并非完全无关紧要。有数百位敏锐的专家正在考虑着这种反乌托邦的各种可能性——以及避免它们的方法。但事实上,未来是未知的,这种强大新技术所带来的影响,就如同互联网刚出现一样难以想象。它将同时带来利与弊,它不能被阻止,但可以被理解。
OpenAI是一个非盈利的人工智能研究机构,它的衍生公司可能会成为全球最赚钱的实体之一。笔者与Ilya的交谈是在OpenAI最新版本的巨型人工智能系统GPT-4发布之前进行的,该系统已经摄入了数十亿字的文本——这比任何一个人一生中可能阅读的文本都要多。
GPT是“生成式预训练转换器”( Generative Pre-trained Transformer)的缩写,这三个词对于理解这个像荷马史诗中的波吕斐摩斯般的AI巨人非常重要。转换器是这个巨型系统核心算法的名称。预训练指的是该庞然大物接受了大量的文本语料的教育,从而使其可以理解语言的基本模式和关系——简而言之,教会它理解世界。生成式意味着AI可以在这个知识基础上创造出新的想法。
人工智能已经占据了我们的生活,但即将到来的将是更为先进、更为强大的技术。我们正在进入未知的领域,这值得我们花一些时间来考虑它意味着什么。但注意不要反应过度,不要像乌龟一样躲避现在照耀在我们身上的明亮太阳。
人工智能不会吃掉我们。
为保证文本清晰连贯,以下内容经过编辑整理。
Craig S. Smith:
Ilya,我知道你出生在俄罗斯,是什么让你对计算机科学、神经科学或者类似的方向产生了兴趣?
Ilya Sutskever:
的确,我出生在俄罗斯,我在以色列长大,在青少年时期,我和家人一起移民到了加拿大。我的父母说我从小就对人工智能很感兴趣。我也受到了很大的觉知驱动。曾经这让我非常困扰,因此我对能帮助我更好理解它的事物充满了好奇。
我很早就开始与 Geoff Hinton [深度学习的创始人之一,时任多伦多大学的教授;深度学习是GPT-4 背后的AI种类 ] 合作,当时我才17岁。因为我们搬到了加拿大,我立刻就入读了多伦多大学。那时我非常想研究机器学习,因为这似乎是人工智能最重要的方面,而在当时这是完全不可触及的。
那是2003年。现在我们会理所当然地认为计算机是能够学习的,但在那时我们默认的是计算机无法学习。那时人工智能领域的最大成就是IBM研发的象棋引擎“深蓝”(Deep Blue)(它在1997年击败了象棋世界冠军 Garry Kasparov)。
但在当时,有这么一个游戏,也有这么一项研究,还有这种简单的方法来确定一个(象棋)走法是否比另一个更好。当时我们真的感觉这不可能适用于现实世界,因为当中没有涉及到学习。学习是一个很大的谜,而我对(机器)学习真的非常非常感兴趣。幸运的是,Geoff Hinton是这所大学的教授,我们几乎立即就开始了合作。
那么智能究竟是如何工作的?我们如何使计算机稍微具有智能呢?我有一个非常明确的意图,那就是为AI做出非常小但真实的贡献。因此,对我来说,一大初衷就是我能否理解智能是如何工作的,以及如何为之做出贡献?那就是我最初的动机。而那几乎是20年前的事了。
简而言之,我意识到,如果你使用一个足够大的数据集来训练一个大而深的神经网络,使之能够完成一些人类能够完成复杂任务,比如视觉任务,那么你必然会获得成功。这个想法的逻辑是不可简化的,因为我们知道人类大脑可以快速地解决这些任务,而人脑本质上就是一个由慢神经元构成的神经网络。
所以,我们只需要使用一个更小但与之类似的神经网络,并使用数据对其进行训练。然后,计算机内部最好的神经网将与我们的大脑中执行这个任务的神经网络非常类似。
Craig S. Smith:
2017年,《Attention Is All You Need》这篇论文出炉,首次提出了自注意力和转换器的概念。那么GPT项目是从什么时候开始的?当时你们对于转换器是否存在某种直觉?
Ilya Sutskever:
就背景而言,从OpenAI的最早时期开始,我们就一直在探索一个想法:(机器学习)只需要能够预测下一个事物。当时,我们用的是更为有限的神经网络,但我们想的是,如果有一个神经网络能够预测下一个单词,它就能解决无监督学习问题。因此,在GPT诞生之前,无监督学习被认为是机器学习的圣杯。
现在,这个问题已经完全解决了,甚至没有人再谈论它,但它曾经是一个“圣杯”。它曾是一个非常神秘的问题,因此我们一直在探索这个想法。我当时对此真的非常兴奋,认为只要(机器学习)能够足够好地预测到下一个单词,它就能实现无监督学习。
但我们那时的(电脑)神经网络并不能胜任这个任务。我们使用的是递归神经网络。当转换器的概念问世后,那篇论文一出来,真的是就在它出来的第二天,我们立即意识到转换器解决了递归神经网络的局限性,解决了学习长期依赖性的问题。
这是一个技术问题。但我们立刻就改用了转换器。于是,我们在开发GPT非常初步的阶段就使用了转换器。后来它的表现越来越好,我们也让它的功能越来越强大。
这就最终导致了GPT-3和我们今天的情况。
Craig S. Smith:
现有的大型语言模型的局限性在于,它们所拥有的知识仅限于训练它们所使用的语言范围内。但我想我们每个人都同意,大多数人类知识是在语言之外的。
它们的目标是满足提示的统计一致性,它们并没有对语言所涉及到的现实情况有根本的理解。我问过ChatGPT 关于我自己的信息,它认识到我是一名记者,曾在多家报纸工作,但它说了很多我从未获得的奖项。那听上去很棒,但与基本现实几乎是脱节的。在你们的未来研究中,是否有解决这个问题的计划?
Ilya Sutskever:
有多大的可能性今天我们看到的这些局限在两年内依然存在? 对此我保持乐观。
对于这个问题的一个部分,即“这些模型只是学习统计规律性,因此它们并不真正知道世界的本质是什么”,我还想说一个我自己的看法。
我的看法与此不同。换句话说,我认为学习统计规律比我们想象的更重要。
预测也是一种统计现象。然而,为了进行预测,你需要了解产生数据的基本过程。你需要对产生数据的世界有越来越多的了解。
我认为随着我们的生成式模型变得异常优秀,它们将具有我所说的对世界和其许多微妙之处的惊人程度的理解。它是通过文本的角度来看待世界的。它试图通过人类在互联网上所表达的文本空间上的世界投影来更多地了解世界。
但是这些文本已经表达了这个世界。我给你举个最近的例子,我认为这很有意思。我们都听说过 Sydney是ChatGPT的第二自我。当用户告诉 Sydney 他认为谷歌是比必应更好的搜索引擎时,Sydney 就会变得有点好斗和具有攻击性。
如何理解这种现象?它是什么意思?你可以说,这是因为它只是预测了人们会做什么,而人类就是会这样做。这没错,但也许我们现在正在到达一个点,即心理学的语言开始被挪用来理解这些神经网络的行为。
现在让我们再来谈谈局限性。确实,这些神经网络有产生幻觉的倾向。这是因为语言模型非常适合学习有关世界的知识,但不太适合产生好的输出。这其中有各种各样的技术原因。语言模型更擅长学习关于世界、想法、概念、人物、过程的令人难以置信的表征,但它的输出并不像人们希望的那样好,或者说不如它们本应该的那样好。
因此,例如对于像ChatGPT这样的系统,它是一个语言模型,具有额外的强化学习训练过程。我们称之为人类反馈强化学习。
可以说,在预训练过程中,我们想(让它)学习的是关于这个世界的一切。但通过人类反馈的强化学习,我们关心的是它的输出。我们会告诉它,如果它在任何时候做出了不合时宜的输出,那么以后就不要再做了。如果它在任何时候做出了没有意义的输出,以后也不要再做了。
这样一来,它很快就学会了产生好的输出。但是输出的水平在语言模型预训练过程中并不是这样的。
至于产生幻觉这个问题,它有时候有捏造内容的倾向,这也极大地限制了它们的实用性。但是我认为我们很有希望通过简单地改进这个从人类反馈中强化学习的步骤,教会它不产生幻觉。现在你可能会问说它真的会学习吗?我的回答是,让我们拭目以待。
我们目前的做法是雇人来教我们的神经网络如何表现,教ChatGPT如何表现。你只需与它互动,它就会从你的反应中推断出:“哦,这不是你想要的。你对它的输出不满意。因此这一次的输出不好,下一次应该做些不同的事情。” 我认为这种方法有相当大的机会能够完全解决幻觉问题。
Craig S. Smith:
Yann LeCun(Facebook首席人工智能科学家和深度学习的另一位早期先驱)认为,大型语言模型所缺少的是这种底层的世界模型,它是非语言的,而语言模型可以参考。 我想听听你对此的看法,以及你是否已经探索过这一领域。
Ilya Sutskever:
我回顾了Yann LeCun的主张,其中有一些想法,它们用不同的语言表达,与目前的范式也许有一些小的差异,但在我看来,这些差异并不十分显著。
第一个主张是,一个系统最好能有多模态的理解,它不只是从文本中了解世界。我对此的评论是,多模态理解确实是可取的,因为你可以了解更多的世界,你可以了解更多的人,你可以了解他们的状况,所以系统将能够更好地理解它应该解决的任务,以及人们和他们想要什么。
我们在这方面已经做了相当多的工作,其中最值得一提的是我们完成的两个重要神经网络,一个叫做Clip,一个叫做Dall-E。它们都在朝着这个多模态的方向发展。但我也想说,我不认为这是非此即彼的情况,如果你没有视觉,如果你不能从视频或图像中理解世界,那么事情就不会顺利进行。
而我想为这一点做个说明。我认为有些东西从图像和图表等方面更容易学习,但我也认为,你仍然可以只从文字中学习,只是速度更慢。我给你举个例子:思考一下颜色的概念。
毫无疑问,我们无法仅从文本中学习颜色的概念,但是当你看到嵌入——我需要做一个小小的转折来解释“嵌入”的概念。每个神经网络通过“嵌入”表示法,即高维向量,来代表单词、句子和概念。
我们可以看一下这些高维向量,看看什么与什么相似,以及网络是如何看待这个概念或那个概念的?因此,只需要查看颜色的嵌入向量,机器就会知道紫色比红色更接近蓝色,以及红色比紫色更接近橙色。它只是通过文本就能知道所有这些东西。这是怎么做到的呢?
如果你拥有视觉,颜色之间的差异就会立刻显现出来,你能立即感知到它们。然而通过文本来感知,你需要更长的时间;也许你知道如何说话,你已经理解了句法、单词和语法,但是要在很久之后你才真正开始理解颜色。
因此,这就是我对多模态性的必要性的看法:我认为它并非必须,但绝对是有用的。我认为这是一个值得追求的好方向。我只是不认为应该将它们分得如此明确。
LeCun在论文中提出的主张声称,其中一个主要挑战是预测具有不确定性的高维向量。但有一点让我觉得很惊讶,或者至少在那篇论文中没有得到承认,那就是目前的自回归转换器已经具备了这种特性。
我给你举两个例子。一个是对于给定一本书中任意的一页,预测其下一页的内容。下一页有非常多的可能性。这是一个非常复杂的高维空间,而它们可以很好地处理它。同样的情况也适用于图像。这些自回归转换器在图像上也运作得非常完美。
例如,像OpenAI一样,我们对iGPT也进行了测试。我们只需取一个转换器,并将其应用于像素,它就能够非常好地运作,并可以以非常复杂和微妙的方式生成图像。在Dall-E 1上也是同样的情况。
所以,我认为那篇论文中对当前方法无法处理高维分布的评论过于绝对了——我认为它们绝对可以。
Craig S. Smith:
关于有一支人类培训师队伍与ChatGPT或一个大型语言模型一起工作,用强化学习来指导它的想法,只是凭直觉,这听起来不像是一个教模型了解其语言的基本现实的有效方法。
Ilya Sutskever:
我不同意这个问题的措辞。我认为我们的预训练模型已经知道了它们需要了解的关于基础现实的一切。它们已经具备了有关语言的知识以及有关产生这种语言的世界进程的大量知识。
大型生成模型对其数据——在这种情况下是大型语言模型——所学习的东西是对产生这些数据的现实世界过程的压缩表示,这不仅意味着人和他们的思想,他们的感受的一些内容,还有关于人所处的情况以及他们之间存在的相互作用的一些内容。人可以处于不同的情境中。所有这些都是由神经网络表示的被压缩的过程的一部分,用以产生文本。语言模型越好,生成模型越好,保真度越高,它就越能捕捉到这个过程。
现在,正如你所说,这些教师队伍实际上也在使用人工智能辅助工具。这些教师并不是独立行动的,他们正在使用我们的工具,而这些工具正在做着大部分的工作。但是我们确实需要有监督,需要有人来审查这个过程,因为最终我们希望实现非常高的可靠性。
我们确实有很多动力来使它尽可能高效、精确,这样产生的语言模型就会尽可能的表现良好。
所以,是的,有这些人类教师在向模型教授它们的理想行为。而他们使用人工智能系统的方式不断增加,因此他们自己的效率也在不断提高。这和教育过程没什么两样,那就是让教育对象知道如何在这个世界上表现得好。
我们需要进行额外的训练,以确保模型知道编造内容永远都是不行的。而这种强化学习的人类教师或其他变体将教会它这些。
这样的做法应该是有效的。我们很快就会知道。
Craig S. Smith:
这些研究最终将通往何处?它们是你最近在做的研究吗?
Ilya Sutskever:
我不能详细讲述我正在从事的具体研究,但我可以大致提及一些研究方向。我非常关注如何让这些模型更可靠、更可控,让它们能够更快地从示例数据中学习,减少指导。以及如何让它们不要产生幻觉。
Craig S. Smith:
我听说你曾经说过我们需要更快的处理器才能进一步扩展。似乎模型的扩展没有止境,但训练这些模型所需的功率,我们已经达到了极限,至少是社会公认的极限。
Ilya Sutskever:
我不记得你所说的我做过的确切评论是什么,但人们总是希望有更快的处理器。当然,功率总是会不断增加。总的来说,成本也在上升。
但我关注的问题不是成本是否很高,而是我们在支付这笔成本时是否能得到超过成本的东西。也许你支付了所有这些成本,却什么都没有得到,那就不值得。但是,如果你得到了非常有用的、非常有价值的东西,可以解决我们想要解决的许多问题,那么它的成本就可以是完全合理的。
Craig S. Smith:
有一次我看到你谈到了民主以及AI对于民主的影响。有人曾向我谈论过这样一种情况,即当看似无法解决的冲突出现时,如果你有足够的数据和一个足够大的模型,你可以用数据来训练模型,从而得出一种最优解,使所有人都能满意。你是否考虑过这种技术可能帮助人类管理社会的方向?
Ilya Sutskever:
这是一个非常大的问题,而且是一个更具未来性的问题。我认为我们的模型仍有许多方面可以变得比现在更为强大。
政府未来是否会将这项技术当作建议来源其实是不可预测的。对于民主的问题,我认为未来可能会发生的一件事是,由于神经网络将如此普及且对社会产生如此大的影响,我们将发现有必要通过某种民主过程,让一个国家的公民提供一些关于他们希望社会变成什么样的信息给神经网络。我可以想象这种情况的发生。这可能是一种非常高带宽的民主形式,你可以从每个公民那里获取更多的信息并进行汇总,从而指定我们希望这种系统如何行动。现在这就引出了许多问题,但这是未来可能发生的一件事。
分析所有变量意味着什么?最终你需要做出选择,而这些变量似乎变得非常重要。我想在这方面研究地更深入一些。因为我可以很快地读一百本书,也可以很慢很仔细地读一本书,从中获得更多收获。所以,其中会有一些值得考量的元素。此外,我认为在某种意义上,从根本上说,要理解所有的事物可能是不可能的。让我们来看一些更简单的例子。
任何时候,只要涉及到复杂的社会情境,例如在一家公司,即使只是一家中等规模的公司,它都已经超出了任何单个人的理解能力。我认为只要我们以正确的方式构建我们的AI系统,AI几乎任何情况下都会对人类有令人难以置信的帮助。■
本文作者为福布斯撰稿人,曾任《纽约时报》记者兼高管,文章内容仅代表作者本人观点。
福布斯中国独家稿件,未经许可,请勿转载
头图来源:Google
关注《福布斯》微信公众号
精彩资讯永不错过
▽