Transformer 的背后:一个非传统的想法如何在 Google 孵化,引领全球 AI潮流
在昨天的文章中,我们提到了今年GTC大会上的一个亮点:英伟达的黄仁勋邀请了 Transformer 技术的七位创作者(Niki Parmar因故缺席)参与圆桌讨论,标志着这些科学家首次集体公开亮相。这些在谷歌孕育出能够改变技术世界的 Transformer 技术的先驱们,不仅推动了人工智能的边界,还各自创立了价值数十亿美元的公司。今天,我们将继续探索他们如何从谷歌的一角走向全球舞台,开启 AI 的新时代。
原文如下:
《Attention Is All You Need》,这篇论文在近年来的科技进展中具有里程碑式的重要意义。
2017年春,一篇名为《Attention Is All You Need》的科研论文罗列了八位作者的名字,他们都来自 Google 的研究团队,虽然在那时,其中一位已离职。论文中资历最老的研究员 Noam Shazeer 在初见草稿时对自己姓名排在首位感到意外,这似乎预示着他的贡献最为关键。“这事我之前没想过,”他表示。
在科研合作中,如何安排名次顺序一直是个需要精心权衡的问题——究竟谁该拥有最受瞩目的第一作者位置,谁又应被置于列表末尾。特别是在这个项目中,每个团队成员都为这份集体成果留下了自己鲜明的烙印。在赶工完成论文的过程中,他们最终决定打破传统,颠覆了对贡献者排序的惯例。论文作者在每个名字后加上了一个星号,并在脚注中注明:“每位均为平等贡献者,名单排序随机。” 他们在大会截稿时间紧迫之际,将这篇论文投递至一场极具盛誉的人工智能会议,由此掀起了一场技术革命。
(姓名:Noam Shazeer / 职业:Character AI 的联合创始人兼首席执行官)
随着《Attention》论文临近七周年庆典,它已经成为了一个科技界的传奇。这群作者从一个活跃且日益完善的技术起步——神经网络,一种人工智能技术,然后将其转化为一种令人叹为观止的数字体系:transformers。这个架构如同强效的秘密魔法,是 ChatGPT 以及如 Dall-E 和 Midjourney 等引人入胜的 AI 产品的核心技术。Shazeer 现在半开玩笑地说,如果他早知道这篇论文会这么火,他“可能会更慎重考虑作者顺序问题”。如今,这八位作者都成了各自领域的微明星。“仅仅因为我署名于一篇论文,就有人来找我自拍!”排在名单中(显然是随机的)第五位的 Llion Jones 说道。
“如果没有 transformers,我相信我们今天不会站在这里,”人工智能领域的泰斗 Geoffrey Hinton 这样说,尽管他并非论文的作者。他谈到的是我们生活中这些剧变的时刻,如 OpenAI 及其他公司正在打造的系统,有时甚至能超过人类的创造力。
(姓名:Llion Jones / 职业:Sakana AI 的联合创始人)
所有八位作者现在已经离开了 Google。他们中的许多人,与全球数以百万计的其他人一样,都在用他们在 2017 年共同创造的成果赋能的系统中工作。我对 Transformer Eight 进行了采访,以重构一个技术飞跃的解剖学——一群人类智慧的汇聚,创造了一台机器,它很可能为自己保留最终发言权。
Transformers 的起源可以追溯到八位发起人中的第四位,Jakob Uszkoreit。Jakob 的父亲 Hans Uszkoreit 是一位知名的计算语言学家。在1960年代末,作为一名高中生,Hans 曾因抗议苏联对捷克斯洛伐克的入侵,在东德被囚禁15个月。释放后,他逃亡至西德,在柏林攻读计算机和语言学。
(姓名:Jakob Uszkoreit / 职业:Inceptive 的联合创始人兼首席执行官)
Hans 迁到美国,在加州门洛帕克的 SRI 人工智能实验室工作时,Jakob 降生了。随后一家人回到德国,Jakob 在那里接受了大学教育。他本无意深入语言学领域,但在研究生阶段初期,他在 Google 山景城的办公室实习,意外加入了公司的翻译团队,自此踏上了家族的事业道路。放弃了博士学位的规划,他在2012年选择加入了 Google 的一个项目组,专注开发能直接在搜索页面解答用户提问、无需跳转至其他网页的系统。此时,苹果刚推出了 Siri,这个能够以口语方式即时回答问题的虚拟助手,让 Google 高层感受到强烈的竞争压力,担心 Siri 会分食它们的搜索流量。于是,Uszkoreit 所在的团队获得了更多的关注。
Uszkoreit 评论说:“那其实是一种毫无根据的恐慌。”事实上,Siri 从来没有真正对 Google 构成威胁。然而,他很高兴有机会深入研究那些能与我们对话的计算机系统。当时,一度被学术界忽视的循环神经网络突然展现出超越传统人工智能技术的潜力。这些网络包含了多个层次,通过层层传递和重新传递信息来识别出最佳反应。神经网络在图像识别等领域取得了突破性进展,人工智能的复兴似乎一触即发。Google 正在紧锣密鼓地调整人力资源配置,以融入这些新技术。公司期待打造出能产生接近人类反应的系统——无论是在电子邮件中自动完成句子,还是构建基本的客户服务聊天机器人。
然而,这个领域面临着其技术的局限性。循环神经网络在处理较长文本时表现得并不理想。例如,要理解一句话中的“两个安打”,语言模型必须能回忆起有关棒球的信息。换句话说,它需要保持“关注力”。一种被称为“长短时记忆”(LSTM)的技术被用作解决办法,它让语言模型得以处理更大和更复杂的文本序列。但计算机在处理这些序列时依旧是逐字进行,因而无法抓住文本后续可能出现的上下文线索。Uszkoreit 表示:“我们当时运用的方法实际上是权宜之计,无法使系统在大规模应用时表现得足够好。”
在2014年左右,他开始酝酿一种称作自注意力(self-attention)的新方法。这类网络通过参照文章中的任何其他部分来翻译单词,这些参照部分能够明确单词的意图,从而帮助系统做出准确的翻译。“实际上,这个方法能够全面地考量所有信息,并且提供了一种高效地同时处理多个输入,然后精选性地提取所需信息的方法,”他解释说。虽然人工智能科学家通常避免将神经网络的比喻和人脑的实际工作方式直接相提并论,但Uszkoreit 相信自注意力机制在某种程度上与人类的语言处理方式相似。
Uszkoreit 相信,相比于循环神经网络,自注意力模型可能更加快速和高效。其处理信息的方式非常契合那些为了支持机器学习热潮而大规模生产的强大的并行处理芯片。与其采用线性方式逐个单词分析,不如采取并行方式同时处理多个单词。Uszkoreit 推测,如果方法得当,完全依赖自注意力机制就能得到更优的结果。
不是每个人都相信这个想法能引发变革,连 Uszkoreit 的父亲——在儿子服务于该公司期间赢得了两项 Google Faculty 研究奖的人——也持怀疑态度。“人们对此嗤之以鼻,因为它完全抛弃了现有的神经网络架构,”Jakob Uszkoreit 表示。放弃循环神经网络?这简直是异端邪说!“根据我和我父亲的餐桌谈话,我们在这个问题上并没有达成共识。”
Uszkoreit 设法说服了一些同事对自注意力进行试验。他们的尝试显示了这个方向的潜力,于2016年他们就此发表了一篇论文。Uszkoreit 希望进一步深入研究——尽管团队的实验仅仅涉及了少量文本——但没有人愿意继续。相反,他们选择了利用已学到的经验离开,仿佛是带着微薄收益离开赌场的赌徒。“这个方法是有效的,”他说。“参与那篇论文的团队成员对于利用它在 Google 的不同部门,包括搜索和广告领域取得成功感到非常兴奋。从很多方面来看,这是一次令人惊叹的成功,但我并不想就此止步。”
Uszkoreit 相信自注意力能够解决更加庞大的问题。“我们完全有另外一种方式来实现这一目标,”他向所有愿意(或不愿意)倾听的人宣称,并在位于 Google 校园北边 Charleston 路1945号大楼的白板上,绘制出他的蓝图。
(姓名:Illia Polosukhin / 职业:Near 的联合创始人)
2016年的某一天,Uszkoreit 与来自乌克兰的科学家 Illia Polosukhin 在 Google 的咖啡馆里共进午餐。Polosukhin 已在 Google 工作了近三年,负责在搜索框直接提问的问题提供答案的团队。但这项工作进展并不顺利。“要在 Google.com 上提供答案,需要快速且高效的解决方案,”Polosukhin 解释道,“因为反应时间只有几毫秒。”当 Polosukhin 吐槽这一挑战时,Uszkoreit 轻松提出了解决方案:“他提出了一个问题,为什么不尝试 self-attention 呢?”Polosukhin 回忆说。
Polosukhin 偶尔会与名叫 Ashish Vaswani 的同事合作,Vaswani 在印度出生,大部分时间在中东成长,后来到南加州大学攻读并获得了机器翻译领域的博士学位。完成学业后,他来到山景城加入了 Google,尤其是加入了名为 Google Brain 的前沿团队。Vaswani 描述 Brain 是一个“充满激情的团队”,他们相信“神经网络能够推进人类的理解”。但他依然在寻找一个足够大的项目来施展拳脚。他的团队位于1965号大楼,与 Polosukhin 的语言团队在1945号大楼仅一墙之隔,他因此得知了 self-attention 的概念。这是否就是他一直在寻找的大项目呢?他决定投入其中。
(姓名:Ashish Vaswani / 职业:Essential AI 的联合创始人兼首席执行官)
这三位研究人员携手起草了一份标题为《Transformer:迭代 Self-Attention 和多任务处理》的设计文件。Uszkoreit 表示,他们从项目伊始就决定使用“Transformer”这一名称。这一机制旨在转换它处理的信息,使系统能够像人类那样提取信息,或至少营造出这样的效果。此外,Uszkoreit 对他童年时期玩耍的 Transformer 玩具怀有深情,这也是命名的部分原因。“我小时候有两个 Transformer 玩具,”他回忆说。文档以六个 Transformer 在山区互射激光的卡通图片作为结尾,充满了趣味和创意。
论文的开头就带着几分自信地声明:“我们很棒。” 到了2017年初,Polosukhin 离开了 Google,去创立了自己的企业。那个时候,新的伙伴开始陆续加入。Niki Parmar,一位之前在印度为一家美国软件公司工作的印度工程师,后来移居美国。2015年,她在南加州大学取得了硕士学位,并受到了各大科技巨头的争相追捧。她最终选择加入了 Google,并从一开始就与 Uszkoreit 合作,专注于通过模型创新来提升 Google 搜索的性能。
另一位新成员,Llion Jones,出生并成长在威尔士,他之所以对计算机情有独钟,是因为在那里,这样的兴趣并不常见。在伯明翰大学,他修读了人工智能课程,并对当时被当做历史小插曲的神经网络产生了兴趣。2009年7月,他获得了硕士学位,但因为经济衰退难以找到工作,不得不靠领取救济金度日。后来他在一家本地公司找到了工作,随后抱着试一试的心态申请了 Google,并成功加入,最终成为了 Google Research 的一员,他的上司正是 Polosukhin。某天,Jones 从名叫 Mat Kelcey 的同事那里了解到了 self-attention 的概念,并随后加入了 Transformer 团队。(后来,当 Jones 向 Kelcey 简要介绍了 transformer 项目时,Kelcey 并不相信这个想法会成功。“我对他说,‘我不确定这是否可行,’这几乎成了我一生中最糟糕的预测,”Kelcey 如今回忆道。)
(姓名:Niki Parmar / 职业:Essential AI 的联合创始人)
Transformer 项目吸引了 Google Brain 团队中试图提升大型语言模型的其他研究人员。这批新加入的研究人员中,有来自波兰的理论计算机科学家 Łukasz Kaiser 和他的实习生 Aidan Gomez。Gomez 在加拿大安大略的一个小农业村庄长大,他的家庭有在春天收集枫树液制作糖浆的传统。当他在多伦多大学的三年级时,他对人工智能产生了浓厚的兴趣,并加入了 Geoffrey Hinton 领导的机器学习组。他开始向在 Google 发表引人注目论文的人发出邮件,提出了对他们研究工作的扩展想法。Kaiser 对此表示感兴趣,并邀请他来实习。Gomez 后来才发现,这些实习机会原本是为博士生设计的,而不是像他这样的本科生。
Kaiser 和 Gomez 很快意识到,self-attention 可能是一个更具前景且更激进的解决他们所面临问题的方案。“我们认真讨论了是否要将两个项目合并的问题,”Gomez 说,最终他们决定合作。Transformer 团队着手开发一个用于文本翻译的 self-attention 模型,他们利用一个称为 BLEU 的标准来评估其性能,该标准通过将机器翻译的结果与人工翻译进行比较来评价。他们的新模型从一开始就表现不俗。“我们从没有任何概念验证到拥有了一个至少能与当时最佳的 LSTM 方法匹敌的模型,”Uszkoreit 表示。但相比于长短时记忆技术,“它并没有显示出更好的性能。” 他们似乎达到了一个发展瓶颈——直到2017年某天,Noam Shazeer 偶然了解到了他们的工作。Shazeer 是 Google 的资深员工——自2000年以来就加入了公司——并且以他在公司早期广告系统的工作而成为了一位内部传奇人物。Shazeer 过去五年专注于深度学习,最近开始对大型语言模型感兴趣。但这些模型还远未达到他认为的能够进行流畅对话的水平。
Shazeer 记得,有一天他正在1965号大楼的走廊里走过,恰好路过 Kaiser 的工作区,他的耳边飘来了一段激动人心的讨论。“Ashish 正在讨论运用 self-attention 的可能性,Niki 显得非常激动。我当时心想,这真是个绝妙的主意。他们看起来是一群干劲十足、头脑灵活的人在做一件有希望的事。”Shazeer 对当时普遍使用的循环神经网络表示不满,心里想着:“我们得找个替代品!”
Shazeer 的加入对团队来说是一个转折点。“这些理论上或直觉上的机制,比如 self-attention,往往需要一些经验丰富的‘魔法师’小心翼翼地实现,才能初见成效,”Uszkoreit 表示。Shazeer 很快就开始展示他的‘魔法’。他决定自己重新编写 transformer 团队的代码。“我把基本概念拿来,然后自己动手实现了,”他说。虽然他偶尔会向 Kaiser 寻求建议,但大多数时间,他表示自己“独立行动了一段时间,然后回来说,‘看,这有效。’”凭借后来被团队成员形容为“魔法”、“炼金术”和“特技”的方法,他成功将系统提升至新的高度。
“这激发了一场冲刺,”Gomez 表示。他们不仅被新发现的潜力所鼓舞,还希望赶在一个重要的日期之前完成——5月19日,那是向当年最大的人工智能盛会之一,即12月的神经信息处理系统大会提交论文的截止日期。随着硅谷的冬季逐渐转向春季,实验的步伐明显加快。他们对两种 transformer 模型进行了测试:一个是仅训练了12小时的模型,另一个是一个被称为 Big 的更强大版本,训练时间超过了三天半。他们着手使用这些模型进行英语到德语的翻译任务。
基础模型超越了所有的竞争者——而“Big”版本所获得的 BLEU 评分不仅大幅刷新了之前的记录,还在计算效率上有所提高。“我们完成的速度比任何人都要快,”Parmar 说,“这仅仅是开始,因为我们的分数还在不断提高。”当 Uszkoreit 得知这一消息时,他从自己的山地探险车里拿出了一瓶旧香槟庆祝。
提交截止日期前的最后两周格外紧张。虽然有些团队成员的桌位依然在1945号大楼,但他们主要是在1965号大楼工作,因为那里有更好的咖啡机。“大家几乎都没怎么睡觉,”作为实习生的 Gomez 说,他一直忙于不停地调试代码,并为论文准备视觉图表和图解。在这样的项目中,进行所谓的消融测试(移除某些元素,以验证剩余部分是否能完成工作)是很常见的做法。
“我们试验了各种可能的技巧和模块组合——哪些有效,哪些无效。如果没用就剔除它,换成其他的,”Gomez 解释说,“模型为什么会以这种反直觉的方式反应呢?哦,是因为我们忘了正确设置掩码。它现在能正常工作了吗?可以,那就继续下一步。我们如今所说的 transformer 的所有组件,都是这种高速迭代和尝试过程的结果。”在 Shazeer 的协助下进行的消融测试产出了一种“极简主义”的作品,Jones 评价说:“Noam 真是个魔术师。”
(姓名:Aidan Gomez / 职业:Cohere 的联合创始人兼首席执行官)
Vaswani 记得有一天晚上,当团队忙于论文撰写时,他就在办公室的沙发上小睡了一会。盯着隔断沙发和房间其他部分的帘子时,他被帘子上似乎呈现出神经元和突触的图案所吸引。Gomez 当时也在场,Vaswani 对他说,他们手头的工作将会超出机器翻译的范畴。“最终,我们需要像处理人脑那样,把语音、音频、视觉等各种模式统一到一个架构里,”他说。“我有一种强烈的预感,我们正接触到某样更加普遍适用的东西。”
但在 Google 的高层中,这项工作被视为又一个有趣的 AI 项目。我询问了几位 transformer 项目的成员,他们的上司是否经常召见他们,了解项目进展。答案并不多。但Uszkoreit 表示:“我们知道这可能是件大事。”这使得我们特别关注论文最后提到的一句话,那里我们对未来的研究方向做了展望。”
这句话预示着下一步可能的发展——将 transformer 模型应用于几乎所有类型的人类表达方式。“我们对基于注意力机制的模型的未来充满期待,”他们写道。“我们打算将 transformer 应用到文本以外的其他输入和输出形式的问题上,探究图像、音频和视频。
临近提交期限的前几天晚上,Uszkoreit 意识到他们还没给论文起个标题。Jones 指出,团队决定彻底抛弃了现有的最佳实践,特别是长短时记忆网络(LSTM),转而专注于一种技术:注意力机制。Jones 想到了披头士乐队的一首歌《All You Need Is Love》。为什么不把论文标题定为《Attention Is All You Need》呢?
提到披头士乐队?“我是英国人,”Jones 解释说,“这个想法只是一时兴起,我根本没想到他们会真的采纳。”
直到最后期限的前一刻,他们还在收集实验数据。“英法翻译的数据几乎是在我们提交论文前五分钟才得到的,”Parmar 回忆道,“我当时正坐在1965号大楼的小厨房里输入最后一个数据。”他们在截止时间前仅有的两分钟内提交了论文。
像所有科技公司一样,Google 很快就为这项工作申请了临时专利。这样做并不是为了阻止其他人使用这些创意,而是为了防御性地增强自己的专利库。(Google 坚持一种理念:技术的进步将惠及 Google。)
当 transformer 团队收到会议评审的反馈时,评价褒贬不一。“有的评审持积极态度,有的极为肯定,还有的认为‘还可以’,”Parmar 说。这篇论文最终被选中在一个晚间的海报展示环节中展出。
到了12月,这篇论文已经开始在学术界引起广泛关注。12月6日的那场为期四小时的会议吸引了众多科学家,他们都急切地想要了解更多细节。作者们讲解至声音嘶哑。会议在晚上10:30结束时,现场依然人头攒动。“我们最终是被保安赶出会场的,”Uszkoreit 回忆道。对他而言,最让人满意的时刻莫过于计算机科学家 Sepp Hochreiter 主动上前称赞他们的工作——考虑到 Hochreiter 正是 LSTM 的共同发明人,而 transformer 正是取代了 LSTM 成为 AI 领域的新宠,这份赞赏意义非凡。
但 transformer 并没有一夜之间改变世界,甚至没有立刻改变 Google。Kaiser 记得,在论文发表时,Shazeer 曾建议 Google 的高层彻底放弃现有的搜索索引,转而使用基于 transformer 的巨型网络重新组织信息。即便是 Kaiser 当时也觉得这个提议太过天马行空。然而,现在普遍认为这只是时间问题。
OpenAI 这家初创公司对此反应更快。论文一经发表,就在 Google 工作过并熟悉 transformer 团队的 OpenAI 首席研究员 Ilya Sutskever 建议他的同事 Alex Radford 深入探索这个概念。他们的尝试催生了第一代 GPT 产品。正如 OpenAI 的 CEO Sam Altman 去年所说:“当 transformer 论文一出,我不认为 Google 内部有任何人真正理解了它的价值。”
(姓名:Łukasz Kaiser / 职业:OpenAI 的研究员)
在 Google 内部,事情其实要复杂得多。Uszkoreit 说:“我们很清楚 transformer 能够做出些看似魔法的成就。”“那么问题来了,为什么 Google 在 2018 年没有推出像 ChatGPT 这样的产品呢?说实话,我们在 2019 年甚至 2020 年就已经有能力推出 GPT-3 或更高版本了。问题不在于他们是否注意到了这一点,而在于我们为什么没能利用这一发现做出更多事情?这个问题的答案很不简单。”
很多技术评论家指出,Google 已经从一个注重创新的场所变成了一个更看重利润的官僚系统。Gomez 在接受《金融时报》采访时表示:“他们没有跟上时代,没有采纳这项技术。”但对于一个长期引领技术潮流、赚取巨额利润的公司而言,这样的转变需要极大的勇气。Google 确实于 2018 年开始将 transformer 技术整合到其产品中,起步是从翻译工具做起。那一年,它还推出了基于 transformer 的新语言模型 BERT,并从次年开始将其应用于搜索。
但与 OpenAI 的巨大突破和 Microsoft 将基于 transformer 的系统大胆融入其产品线相比,Google 的这些变化似乎显得较为保守。去年我询问 Sundar Pichai 为何 Google 没有率先推出像 ChatGPT 这样的大型语言模型时,他认为在这种情况下,让其他人领先一步对 Google 来说是有益的。“我不完全确定如果由我们率先做出会怎样。事实上,在人们见识到它如何运作之后,我们能做得更多,”他说道。
现在,这篇论文的所有八位作者都已离开 Google。Polosukhin 的公司 Near 构建了一个区块链,其代币市值约为 40 亿美元。Parmar 和 Vaswani 在 2021 年携手成为商业伙伴,创办了 Adept(估值约 10 亿美元),现在他们正致力于他们的第二家公司,名为 Essential AI(融资 800 万美元)。位于东京的 Llion Jones 的 Sakana AI 估值为 2 亿美元。Shazeer 在 2021 年 10 月离职,共同创立了 Character AI(估值约 50 亿美元)。团队中的实习生 Aidan Gomez 于 2019 年在多伦多共同创办了 Cohere(估值约 22 亿美元)。Jakob Uszkoreit 的生物技术公司 Inceptive 估值为 3 亿美元。这些公司(除了 Near)都基于 transformer 技术。
Kaiser 是唯一一个没有创立公司的人。他加入了 OpenAI,并且是一项名为 Q* 的新技术的发明者之一,Altman 在去年表示这项技术将“推进无知的边界,拓展发现的前沿。”(当我在我们的采访中试图询问 Kaiser 有关这个问题时,OpenAI 的公关人员几乎是跃过桌子来阻止他。)
Google 是否对这些离开的人才感到遗憾?当然,除了那些转投新兴 AI 初创公司的人外,还有其他人。当我向 Pichai 提及 Transformer 团队的离职时,他提醒我,行业宠儿 OpenAI 也经历了人才流失:“AI 领域非常、非常活跃,”他说。但 Google 可以自豪地宣称,它创造了一个支持追求非传统想法的环境。“在很多方面,Google 一直走在前列——他们投资于正确的人才,并创造了一个我们可以探索和挑战极限的环境,”Parmar 说。“它没有立即采用这项技术并不奇怪。Google 面临的风险要大得多。”
没有这样的环境,就没有 Transformer。作者们不仅都是 Google 员工,而且还在同一个办公室工作。走廊上的偶遇和午餐时听到的对话导致了重大时刻。这个团队在文化上也是多样化的。八位作者中有六位出生在美国之外;另外两位分别是两位持绿卡的德国人在加利福尼亚临时居住时所生的孩子,以及一个第一代美国人,其家族曾逃离迫害。
Uszkoreit 在柏林的办公室表示,创新全靠正确的条件。“这需要一群对某件事情充满激情且正处于人生正确阶段的人,”他说。“如果你拥有这些,而且在做这些事情时感到乐趣,你致力于正确的问题——并且你足够幸运——魔法就会发生。”
Uszkoreit 和他著名的父亲之间也发生了一些特别的故事。经过那么多次餐桌上的辩论之后,他的父亲 Hans Uszkoreit 和他现在也共同创立了一家大型语言模型的公司。当然,他们使用的是 Transformer技术。
原文链接:https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/