万字整理一小时采访:谷歌AI首席科学家 Jeff Dean详解AI的前生今世,并预测AGI实现时间表
(关注公众号并设为🌟标,获取最新人工智能资讯和产品)
全文约13,000 字,阅读约需 28分钟
在AI领域,Jeff Dean这个名字如雷贯耳。作为美国工程院院士、ACM Fellow和Google高级研究员,他是谷歌最早的雇员之一,也是公司成长过程中的关键人物,至今已经在谷歌工作25年了。他的贡献涵盖了从分布式计算基础架构到人工智能领域的广泛范畴。
1999年加入谷歌后,Jeff设计并完成了谷歌分布式计算的基础架构。他的代码为谷歌从小型初创公司发展为今日的科技巨头铺平了道路。他领导了TensorFlow项目,这是推动机器学习普及的重要工具之一。他还共同创立了谷歌的AI研究项目——Google Brain,并且是早期神经网络新架构——Transformer的开创者之一。
同时,Jeff Dean也在Alphabet两大AI部门(Google Brain与DeepMind)的合并中扮演了重要角色。他与团队共同研发的最新项目Gemini,是一个突破性的多模态模型,能够理解并处理文本、代码、音频、图像和视频。采访最后他表示,AI在各方面都具有广阔应用空间,预计在未来的5年或10年甚至可能更早,人类可以实现通用人工智能(AGI)。
采访核心要点
1、谷歌搜索的发展
Jeff讨论了谷歌搜索引擎的技术改进,特别是如何应用机器学习技术来改进搜索结果的相关性和效率。 谷歌通过数据驱动的方法提升了用户体验,并确保了搜索引擎的稳定和扩展性。
2、神经网络的应用
神经网络技术的引入改变了计算机科学,特别是在模式识别和数据处理领域。 Jeff解释了谷歌如何将神经网络应用于语音识别、图像处理等关键领域,并如何逐步将这些技术应用于产品。
3、Transformer架构与多模态模型
Jeff Dean深入解释了Transformer架构,这是一种极为成功的深度学习模型架构,在自然语言处理和其他领域的应用非常广泛。 他提到了多模态模型的重要性,特别是像Gemini这样的模型,能够处理文本、图像等多种输入形式,并将这些数据整合起来生成有意义的输出。
4、概率计算与长上下文窗口
他探讨了在未来AI模型中引入概率计算和长上下文窗口的可能性,这可以帮助AI更好地处理复杂的任务。 通过增加上下文处理能力,模型可以做出更加准确的预测,并提供更具连贯性的输出。
5、减少AI“幻觉”风险的策略
Jeff特别关注如何减少AI生成虚假信息的风险,特别是在高风险领域,如医学和法律。 他建议通过多模态数据的整合,以及更好的模型验证机制,来减少这些风险。
6、AGI的实现
未来的AI技术将更加关注个性化服务,尤其是在医疗、教育和娱乐领域,AI能够根据个人需求提供定制化的解决方案。
Jeff认为这种个性化技术将使AI更加贴近人类需求,并带来巨大的社会效益。未来多模态AI的广阔前景,尤其是在整合不同形式的数据方面。
他认为未来AI不仅可以帮助我们更好地理解世界,还可以在复杂的工程设计(如飞机设计)中发挥重要作用。
视频时间轴
01:35 谷歌的早期
06:49 神经网络
13:41 DeepMind工作
22:17 Transformer和多模态
32:30 人工智能用例示例
41:35 长上下文窗口
49:18 人工智能互动方式
51:03 了解未来世界
文稿整理
主持人HANNAH FRY: 欢迎回到《Google DeepMind:播客》,我是主持人,HANNAH FRY教授。在这一集中,我们将与计算机科学界最具传奇色彩的人物之一,Jeff Dean(杰夫·迪恩)进行对话。
Jeff,非常感谢你加入我们的节目。
嘉宾JEFF DEAN: 谢谢你邀请我。
谷歌新成立后的挑战
HANNAH FRY: 好的,25年了,四分之一个世纪的谷歌之旅。早期的谷歌是什么样的?我想谈谈上世纪90年代你刚加入时的那些日子,那时候谷歌还不像现在这样是个精英化的组织。那时候是不是满是贴了贴纸的笔记本电脑,穿着拖鞋编写代码?
JEFF DEAN: 很遗憾,那时还没有笔记本电脑。
HANNAH FRY: 没有笔记本电脑?
JEFF DEAN: 大部分时间没有。是的,我们用的是那些巨大的CRT显示器。
HANNAH FRY: 哦,当然。
JEFF DEAN: 那些是液晶显示器之前的老式显示器,占据了很大的桌面空间。
HANNAH FRY: 不太便携。
JEFF DEAN: 我的桌子是一个放在两个锯马上的门板。你可以自己调整高度,通过在桌子底下站起来,用背部顶起桌面来调到下一个高度。意思是,你可以用身体的力量把桌面顶到你需要的高度,然后放下锯马来支撑它。
HANNAH FRY: 真是不可思议。
JEFF DEAN: 我刚开始工作时,我们的办公室很小,大概只有这个房间的三倍大。
HANNAH FRY: 整个谷歌?
JEFF DEAN: 整个谷歌都在帕洛阿托(Palo Alto)的大学大道上,位于现在的T-Mobile手机店的楼上。那时特别有趣且令人兴奋的事情是,我们虽然是一个小公司,但能看到越来越多的人在使用我们的服务,因为我们提供了高质量的搜索功能。我们可以看到流量日益增长,日复一日,周复一周地增加。因此,我们总是努力确保系统不要在周二中午(每周流量最高峰)崩溃。这意味着我们需要快速部署更多计算机,优化代码使其运行更快,并提出新的创新,以便在下个月的索引中能用同样的硬件服务更多用户。
HANNAH FRY: 我能想象那时候的兴奋感。有没有哪一刻你们意识到——公司真的会变得很大?
JEFF DEAN: 其实从我加入的时候就能看到一些迹象。我加入公司是因为流量增长得很快,我们觉得通过专注于提供高质量的搜索结果,并且快速地做到这一点,给用户他们想要的东西——实际上,我们希望用户能尽快离开我们的网站,去找到他们需要的信息——这是一种成功的策略。用户似乎也喜欢我们的服务。所以从最早的时候,我觉得前景还是挺不错的。
HANNAH FRY: 不过从“挺不错”到最终的结果之间还是有很大的差距。你觉得这个结果出乎你们的意料吗?
JEFF DEAN: 我觉得有很多我们后来涉足的领域是当初难以预料的,比如自动驾驶。你在开发搜索引擎时,很难想象会有这样的应用。但我觉得我们产品组合的逐步扩展是非常合理的。我们从公共网页搜索扩展到帮助用户管理他们的电子邮件,比如Gmail,这些都是解决人们实际问题的自然演变。于是你会发现,我们不再只有一个产品,而是拥有了一系列用户经常使用的产品。
HANNAH FRY: 我有点好奇。回顾过去,你觉得谷歌一直是一家搜索公司,还是说它其实是一个伪装成搜索公司的AI公司?
JEFF DEAN: 我认为我们公司最初想要解决的许多问题,实际上都是需要AI才能真正解决的。在过去的25年里,我们逐步在解决这些棘手的AI问题,并在这些问题上取得进展,然后将这些新技术应用于搜索以及我们的其他产品中。
HANNAH FRY: 你觉得谷歌将来会一直是一家搜索公司吗?或者说,现在它甚至还是一家搜索公司吗?它是不是在改变?
JEFF DEAN:我非常喜欢谷歌的一点是,哪怕25年过去了,我们的使命仍然非常具有现实意义——组织全球信息,并使其普遍可访问且有用。而我觉得Gemini项目确实在帮助我们朝着理解各种不同类型的信息的方向迈进。这些信息包括文本数据、软件代码(它本质上也是一种文本,但在某些方面非常有结构性),还有人类流利处理的其他所有输入形式。我们天生就会读东西,但也会用眼睛看、用耳朵听。所以我们希望模型能够接收多种形式的信息,并且也能够生成文本、音频,甚至在合适的时候生成图像,或者在文本中附上图表等等。因此,我们现在的目标是创建一个可以接收并生成所有这些模态的单一模型,并在合适的场合使用这些能力。
神经网络历史
HANNAH FRY: 你还记得你第一次接触神经网络是什么时候吗?
JEFF DEAN: 哦,当然记得。神经网络有着非常有趣的历史。AI其实是一个非常古老的学科,早期的AI研究集中在如何定义规则来描述事物的运作方式。这是在50年代、60年代、70年代一直在进行的事情。到了70年代,神经网络出现了,并在80年代末和90年代初掀起了一股热潮。我在1990年还是明尼苏达大学的本科生,当时我正在上一门并行处理的课程,这门课的思想是如何将问题拆解成可以由不同计算机处理的部分,然后这些计算机协同工作来解决一个单一的问题。
HANNAH FRY: 我猜那时候的计算能力还不如现在,所以怎么让计算机“组队”工作呢?
JEFF DEAN: 对,当时神经网络是一种机器学习和AI的特别方法,涉及对人类或其他大脑中神经元工作方式的粗略模拟。它们之所以被称为神经网络,是因为它们由人工神经元组成。人工神经元与下方的其他神经元相连,它们会观察从这些神经元传上来的信号,并决定对这些特定的信号模式有多感兴趣。然后它们决定是否兴奋到足以将信号传递到神经网络的更高层次。每个神经网络由许多这样的神经元组成,层层堆叠。较高层的神经元建立在较低层神经元的基础上。如果你构建的是一个图像识别神经网络,最底层的神经元可能会学习到特征,比如“哦,这里有一个红色或绿色的斑点”或“这里有一条边缘”,而下一层可能会学习“哦,这是一条边缘,旁边有黄色”,再往上可能是“哦,这看起来像是鼻子、耳朵或脸”。通过这种分层的抽象学习,这些系统实际上可以发展出非常强大的模式识别能力。这就是为什么人们在1985年到1990年对神经网络感到兴奋的原因。
HANNAH FRY: 不过我们说的这些网络非常小吧?
JEFF DEAN: 是的,网络非常小,所以它们还不能识别脸、车之类的东西,只能识别人工生成的小模式。
HANNAH FRY: 对,比如你给它一个网格,它可能只能识别出一个“十字”之类的图案。
JEFF DEAN: 或者是识别手写数字,比如是“7”还是“8”。
HANNAH FRY: 听起来还挺高级的。
JEFF DEAN: 是啊,那时候这已经算是高级技术了。但这正是当时它们能做到的事情。大家对它们感到兴奋,是因为它们可以解决那些其他基于纯逻辑规则的系统无法很好地解决的问题,比如识别所有种类的凌乱手写“7”。于是,在听了两节关于神经网络的课后,我决定做一个本科毕业论文,主题是“神经网络的并行训练”,因为我觉得我们只是需要更多的计算能力。如果我们能用部门里那台32个处理器的机器来训练一个更大的神经网络,那会怎么样呢?这就是我接下来几个月的研究课题。
HANNAH FRY: 它成功了吗?
JEFF DEAN: 是的,成功了。所以当时我非常兴奋,我觉得32个处理器一定能让神经网络大展拳脚。结果我错了,作为一个天真的本科生,我没有意识到我们其实需要大约一百万倍的计算能力,才能真正解决那些你可能真正关心的实际问题。
HANNAH FRY: 对。
JEFF DEAN: 但后来,得益于摩尔定律的20年进步和更快的CPU以及计算设备,我们终于有了实用的系统,这些系统的计算能力比当时的32处理器机器强大了一百万倍。后来,我又重新对神经网络产生了兴趣,当时斯坦福的教授吴恩达每周有一天在谷歌担任顾问。有一次,我在公司的一个小厨房里碰到了他,我问他:“你在谷歌做什么?”他说:“我还没有完全弄清楚,因为我刚开始做顾问,但我在斯坦福的一些学生正在神经网络上取得不错的成果。”我说:“哦,真的吗?那我们为什么不训练更大的神经网络呢?” 这就是我们在谷歌开始研究神经网络的起点。随后,我们组建了一个小团队,叫做Google Brain团队,开始研究如何利用谷歌的计算资源训练非常大的神经网络。我们开发了一种软件基础设施,它能够把神经网络的描述分解成可以由不同计算机处理的部分,让这些并行的团队成员之间进行必要的通信,以解决如何在2000台计算机上训练一个单一神经网络的整体问题。这是我们最早构建的用于大规模神经网络训练的软件,它使我们能够训练比现有神经网络大50到100倍的模型。
HANNAH FRY: 这是2011年,对吧?
JEFF DEAN: 对,这大概是2012年初。
HANNAH FRY: 所以这是在图像识别的大突破之前,还算是很早期。某种意义上,你们当时做的事情和你以前做的事情有点类似,就是把计算机“缝合”在一起。
JEFF DEAN: 就像我的本科论文一样。这次它真的奏效了,因为计算机更快了,而且我们用的数量更多。
HANNAH FRY: 在2011年那时候,你觉得这是不是有点冒险?
JEFF DEAN: 哦,当然是了。我们为了训练这些神经网络和尝试不同的分解方法而构建的系统,我把它命名为DistBelief(英文意思是不相信)。部分原因是因为人们不相信这个系统真的能奏效,另一个原因是它是一个分布式系统,能够构建我们想训练的信念网络以及神经网络。
HANNAH FRY: 我喜欢这个名字,DistBelief。太棒了。与此同时,在大西洋的另一边,DeepMind刚刚开始崭露头角。我知道你就是那个被派去考察他们的人,对吗?能不能讲讲这个故事?
JEFF DEAN: 对,其实是Geoffrey Hinton,他是非常著名的机器学习研究员,2011年夏天在谷歌工作了一段时间。我们不知道该怎么给他定位,所以他被归为实习生,有点搞笑。
HANNAH FRY: 历史上最资深的实习生。
JEFF DEAN: 那段时间我和他一起工作。后来我们得知了DeepMind的消息,我想Geoffrey对这家公司有所了解。一些其他人也告诉我们,英国有一家做得很有意思的公司。
HANNAH FRY: 那时它还非常小,对吧?
JEFF DEAN: 对,当时大概只有四五十个人。所以我们公司决定去考察,作为潜在的收购对象。当时我在加州,Geoffrey在多伦多,他那时还在大学任教。Geoffrey的背不好,所以他不能坐飞机,因为他无法长时间坐下,只能站着或者躺着。但航空公司不允许你在起飞时站起来,所以我们得想个办法。最后我们找了一架私人飞机,装了一张医疗床。于是我们从加州起飞,飞到多伦多,在停机坪上接上Geoffrey,把他放在医疗床上,然后一起飞往英国,降落在某个郊外的机场,不是大型的那几个机场。然后我们坐上了一辆大面包车,前往DeepMind的办公室,它位于靠近罗素广场的地方。当时我们非常疲惫,因为前一晚刚飞过来。但我们还是接受了13场连续20分钟的讲座,了解他们正在做的所有不同的事情。
HANNAH FRY: 是DeepMind团队的人给你们做的展示吗?
JEFF DEAN: 是的,团队成员。我们在时差还没倒过来的情况下参加了这些展示。然后他们给我们展示了一些他们关于Atari游戏的工作,后来也发表了这些成果,展示了如何通过强化学习来学习玩老式的Atari 2600游戏,比如《打砖块》(Breakout)和《乒乓》(Pong)之类的游戏,非常有意思。
HANNAH FRY: 因为你们那时还没有进行强化学习的研究,对吧?
JEFF DEAN: 对,当时我们主要专注于如何扩展大规模的监督学习和无监督学习。
HANNAH FRY: 而强化学习更多是通过奖励机制来激励行为。
JEFF DEAN: 是的,我认为这些技术都非常有用,尤其是当它们结合在一起时更是如此。强化学习的核心思想是你有一个代理人在环境中操作,每一步都可以有很多不同的动作选择。在围棋中,你可以在很多不同的位置落子;在Atari游戏中,你可以将摇杆向上、向下、向左或向右移动,或者按下左右按钮。在很多情况下,你不会立刻得到反馈奖励。在围棋中,你下了一步棋,但要等到整个游戏结束后,你才知道这是不是一个好主意。强化学习的一个有趣之处在于,它可以处理这种长序列的动作,并根据动作的预期情况来分配奖励或惩罚。例如,当你做出某个动作时,你认为这是一个好主意,但结果你赢了,那么你就应该稍微提升对这个动作的信任;如果你输了,你就应该稍微减少对这个动作的信任。这就是强化学习的主要思想,特别适合那些在短时间内难以判断行动是否正确的环境。相比之下,监督学习是你有输入数据,并且有一个已知的正确输出。例如,你有一堆图像,每张图像都被标注为某个类别。有一张图像是汽车,另一张是鸵鸟,还有一张是石榴。(笑声)
谷歌收购DeepMind
HANNAH FRY: 你在DeepMind考察时,最终决定进行收购,Demis当时紧张吗?
JEFF DEAN:我不确定他是否紧张。我只是说,嗯,我看了这些很棒的展示,但我能不能看一下他们的代码呢?因为我想确认他们确实有实际代码,并了解他们的编码标准,比如是否写了注释之类的。Demis对此有点犹豫。我说,不需要是机密代码,只要挑选一小部分展示给我看就行了。然后我和一个工程师一起进了办公室,我们坐下来聊了10分钟。我问:“这段代码是干什么的?”然后又问:“那段代码是怎么实现的?”最后我出来时很满意。
HANNAH FRY: 代码很清晰吗?
JEFF DEAN: 相对来说是的,考虑到这是一家小公司,他们的代码还带有些研究性质。但它确实有趣,而且注释也很清晰。
HANNAH FRY: 我听说你在代码里喜欢加一句LGTM(看起来不错)。
JEFF DEAN: 是啊,我经常用,不仅仅是代码评审时用,生活中也用。
HANNAH FRY: 那么,在这些展示之后,你的印象是什么?
JEFF DEAN: 我觉得他们在强化学习方面做的工作非常有趣。我们当时专注于扩展规模,训练的模型比DeepMind当时使用的模型大得多。但他们在通过强化学习来解决游戏问题,这是一个非常适合强化学习的代码环境。我觉得强化学习和我们正在进行的大规模训练工作相结合,会是一个很好的组合。
HANNAH FRY: 我想你们是在从两个不同的方向解决问题吧?强化学习用的是非常小的模型,像是玩具模型一样,从小做起;而你们则是在非常大规模上进行探索,这种深刻的理解,虽然“理解”要打引号。
JEFF DEAN: 但是将两者结合起来,事情就变得非常强大了。没错,这也是我们去年决定将原DeepMind和Google Brain以及谷歌研究的其他部分合并在一起的动机之一。
HANNAH FRY: Google DeepMind的诞生。
JEFF DEAN:是的,我们决定将这些团队合并,组成Google DeepMind。Gemini实际上早于这个合并的想法,但它的核心理念是我们应该齐心协力一起解决这些问题,因为我们实际上都在围绕着同一个方向:如何训练高质量的大规模多模态模型。如果我们各自为政,不协同工作,浪费计算资源,那就毫无意义了。我们应该把一切整合在一起,组成一个团队来解决这些问题,这就是我们所做的。
HANNAH FRY: 为什么叫Gemini?
JEFF DEAN: 其实是我命名的。:是啊,挺有趣的,就像DistBelief。
HANNAH FRY: 哈哈,DistBelief。
JEFF DEAN: Gemini与“双子”有关,我觉得这个名字很适合表达DeepMind和Brain这对“孪生子”走到一起,合作开展一个雄心勃勃的多模态项目。
HANNAH FRY: 我在想,Gemini也让我想到航天任务,就像阿波罗计划的前身。
JEFF DEAN: 对,一个名字有多重含义是件好事,这也是我选择这个名字的原因之一。它也是一项雄心勃勃的太空计划的前奏。
Transformer的本质
HANNAH FRY: 我想聊聊多模态的事情。在此之前,我想说的是,Transformers和多模态是这次公众对聊天机器人和大型语言模型的巨大变化背后的重要原因之一,这些工作部分源自于Google Brain的研究。你能谈谈Transformer的工作及其变革性吗?
JEFF DEAN: 当然。其实,很多你想解决的语言问题以及其他领域的问题,都是序列问题。比如在Gmail里自动完成功能——当你在打字时,系统能帮你完成你的句子或想法。很多这种功能都依赖于看到一部分序列,然后预测接下来的部分。这实际上就是大型语言模型训练的内容。它们被训练成每次接收一个单词或一个单词的部分,然后预测下一个词会是什么。
HANNAH FRY: 像是高级的自动完成功能。
JEFF DEAN: 是的,它非常有用。你可以用这种方式建模很多不同的问题。比如翻译,你可以把它看作输入一句英文,然后训练模型输出对应的法语句子,当你有足够多的英法句子对时,它就能学会这种序列模式。你也可以在医疗场景中使用这种模型,比如当患者向你报告这些症状时,并且他们有这些化验结果,还有他们过去的病史,你可以将整个情况建模为一个序列,然后你可以预测出最有可能的诊断。如果你有其他匿名的数据,这些数据也被组织成类似的序列,你可以用它来训练模型。而做到这一点的方式就是隐藏序列的其余部分,强迫模型去预测接下来会发生什么。这很有趣,因为这种方式可以应用于语言翻译、医疗场景、DNA序列等各种领域。
HANNAH FRY: 这实际上是关于你在任何时候关注的那部分信息。
JEFF DEAN: 是的,在Transformer架构之前成功的模型是所谓的循环模型(recurrent models),它们有一些内部状态。每当看到一个词时,它们就会对内部状态进行处理和更新,然后继续处理下一个词,再次更新状态。你可以想象一个12词的句子,模型需要更新12次状态。但每一步都依赖于前一步,因此要让它运行得快其实很困难,因为你有一个所谓的“顺序依赖性”:第七步依赖于第六步,第六步依赖于第五步,依此类推。谷歌研究团队的一些研究人员提出了一个非常有趣的想法,不再只更新单一状态,而是同时处理所有单词,并记住每个单词的状态。当我们试图预测新词时,我们关注之前的所有状态,并学习如何专注于重要的部分——这就是Transformer中所说的“注意力机制”。有时你需要特别关注前一个词,而在某些情况下,可能需要稍微关注很多词。关键在于,这可以并行完成。你可以同时处理1000个词,并行计算每个词的状态,这使得它比之前的循环模型在扩展性和性能上提高了10到100倍。这就是它如此重要的突破原因。
HANNAH FRY: 不过,似乎也有其他的东西从这里浮现出来。我是说,仅仅通过序列和语言,似乎能够产生某种概念性的理解或抽象能力——这是不是让你感到惊讶?
JEFF DEAN: 是的,我想我们在Google Brain团队最早做的语言建模工作,实际上并不是把单词看作它们的表面形式,比如H-E-L-L-O或C-O-W,而是将它们表示为一种高维向量,代表了单词的使用方式。我们习惯于以二维或三维的方式思考,但是当你有100维或1000维时,在1000维空间中有非常大的可能性。当你训练模型时,它会把“牛”(cow)、“羊”(sheep)、“山羊”(goat)和“猪”(pig)都放在一起。而与这些动物不同的东西,比如“浓缩咖啡机”,模型会把它放在另一类,因为它们在性质上差别很大。
HANNAH FRY: 虽然“牛奶”(milk)可能介于它们之间。
JEFF DEAN: 牛奶可能更靠近“牛”,但确实会处在它们之间的某个位置。
HANNAH FRY: 对。
JEFF DEAN: 它可能就位于100维空间的某条线上。所以我认为这些模型之所以拥有如此强大的能力,是因为它们用如此多的高维度表示信息,它们实际上可以同时捕捉一个单词、句子或段落的多个不同方面,因为它们的表示空间非常大。
HANNAH FRY: 这似乎提取了我们赋予语言的基础意义。
JEFF DEAN: 是的,当我们听到一个单词时,我们不仅仅想到单词的表面形式。比如,当我们听到“牛”,这会触发一系列联想,如“牛奶”、“浓缩咖啡机”、“挤奶”、“小牛”或“公牛”等等。我们发现这些早期的单词表示中,方向是有意义的。比如现在时动词“走”(walk)和过去时动词“走过”(walked)之间的方向,与“跑”(run)和“跑过”(ran)之间的方向是一致的,“读”(read)和“读过”(read)也是一样的。
HANNAH FRY: 所以它真的理解了——我总是用“理解”这个词,但其实我并不是这个意思。不过确实有某种时态的表示存在于这些结构中。
JEFF DEAN: 是的,这都是从训练过程中自然浮现出来的。这并不是我们告诉模型要这么做的,而是因为我们使用的训练算法,以及语言本身存在很多不同形式的用法,这导致了这些特性自然而然地浮现出来。你还可以,比如,从雌性词到雄性词之间转换,反之亦然。所以从“牛”(cow)到“公牛”(bull)的方向,与从“女王”(queen)到“国王”(king)、从“男人”(man)到“女人”(woman)、从“女人”到“男人”的方向是一样的。但我们现在讨论的仅仅是语言。
HANNAH FRY: 那么,好吧,告诉我,多模态的概念是如何改变这一切的?它如何使事情变得不同?
JEFF DEAN: 因为你仍然在用高维空间表示输入数据。问题在于如何从图像的像素中获取信息,理想情况下,你希望多模态模型能够像我们人类一样处理这些信息。当我们看到一头牛时,它在我们大脑中激活的信号与我们阅读“牛”这个词,或听到牛叫声时产生的信号是相似的。你希望训练模型时,它们能够有这种联合的意义和表示,而不管它们是通过何种方式接收到这些输入数据的。所以如果模型看到一段牛在田野中行走的视频,那应该在模型中触发一系列相关的内容,这些是基于模型内部的激活状态形成的。通常这些模型是非常深度的、分层的模型。最底层通常具有非常简单的表示,而越往上层,模型会基于这些表示构建出更加有趣且复杂的特征组合和表示,无论是单词还是图像。
HANNAH FRY: 所以当你说多模态自下而上(from the ground up)时,这是一个Gemini项目中常用的大词,并不是说你有一个单词部分在这里,一个像素部分在那边,然后你在它们之间进行转换。
JEFF DEAN: 对。
HANNAH FRY: 而是在模型内部,这些表示是存在的。
JEFF DEAN: 是的,非常早期就在模型中整合了这些表示。
HANNAH FRY: 那这是不是在一开始让设置模型变得更加困难?
JEFF DEAN: 是的,我认为如何将不同的模态整合到模型中,并如何训练多模态模型,比单一的纯语言或纯字符模型更为复杂。但你可以从中获得很多好处,比如跨模态的迁移能力。现在通过视觉看到的关于牛的信息实际上可以帮助模型理解语言。也许模型之前看过很多关于牛在牧场中的描述,但现在它看到了关于这些描述的图像和视频,能够将这些表示结合起来,不管你看到的是“牛”这个单词,还是“牛”的图像,模型内部都会触发类似的反应。
HANNAH FRY: 你能给我举个例子,说明你认为在未来这种技术可以在哪些场景中应用吗?
JEFF DEAN: 其实我认为它现在已经很有用了,这是好事。举个例子,你希望能够输入一张手写的白板上的数学题,然后问,学生是否解对了这道题?这就是一个需要多模态能力的例子。你需要进行手写识别,然后理解这是一个物理问题,或许上面还有一个滑雪者下坡的图画。在早期的Gemini技术报告中,我们有一个很好的例子,一个学生在白板上解答了一道物理题,你可以问Gemini,学生解对了吗?如果没有,哪里错了?它能解释如何正确解答这个问题。Gemini实际上能判断出,学生在应用滑雪者下坡的公式时出错了,他们用了斜边而不是高度。它会说:“不,你应该用这个公式。”然后它会展示出问题的正确解法。它做到了所有这些,包括识别出手写内容,以及这是一个物理问题。模型中已有的物理知识在这里得到了正确的应用。
HANNAH FRY: 我觉得这是一个非常好的例子,展示了你如何在现有的教育模式中使用Gemini。不过我想,这些系统其实并不是彼此独立的。所以你觉得这些多模态模型会彻底改变我们教育的方式吗?
JEFF DEAN: 我认为AI工具在教育中的应用潜力非常惊人。我觉得我们作为一个社会,才刚刚开始这段旅程。比如,我们知道,接受一对一辅导的学生的教育结果比在传统课堂上有30个学生的学生高出两个标准差。那么,我们如何让每个人都能享受到一对一教育辅导的好处呢?这种辅导能够理解他们已经知道的内容,了解他们不知道的东西,帮助他们以最适合他们的方式学习。这就是AI在教育中的潜力。而且,我认为我们距离这样的未来并不遥远。你可以对一个Gemini模型或未来版本的Gemini说:“你能帮我学习这个吗?”比如第六章的生物学教材,它可能包含一堆图片、文本,甚至还有你观看过的讲座视频。然后你可以说:“我真的不明白这个内容,能帮我解释一下吗?”它可以向你提问,你也可以向它提问,回答问题时,它能够评估你答对了还是答错了,并引导你在学习中的每一步,因为它是个性化的。我们应该能够把这种教育形式带给全球的许多人,不仅仅是英语,还包括世界上数百种语言。
HANNAH FRY: 我理解你刚才提到的,让这些技术支持多种语言,尽可能广泛地普及。但是否有可能形成一个“二元化”系统?一方面,有些人能够使用这些工具,加速他们的学习和生产力;而另一方面,那些无法获得这些工具的人可能会非常困难。你对此有担忧吗?
JEFF DEAN: 是的,我认为确实存在创造二元化系统的风险。我觉得我们应该尽力让这些技术尽可能广泛和普遍地普及,确保所有人都能使用,并尽量通过降低成本或免费提供的方式,让人们能够利用这些教育能力。在医疗领域,AI也有巨大的潜力,可以显著改善医疗的可及性。
HANNAH FRY: 如果可以的话,回到Gemini上来吧。如果你从谷歌搜索开始,事实性肯定是你们关心的核心问题之一。
JEFF DEAN: 没错。
HANNAH FRY: 但Gemini,你每天都在使用它,我想你肯定见过它说出一些非常荒诞的事情。
JEFF DEAN: 是的。
HANNAH FRY: 你如何在思想上平衡这一点呢?也就是说,在发布时,或许不需要始终追求绝对的事实性?
JEFF DEAN: 这确实是公司面临的一个棘手事情。因为我们起源于一家搜索公司,正如你所说,提供准确的、基于事实的信息是搜索引擎体验的顶峰。而我们确实已经在内部构建了一些有趣的大型语言模型,大家很喜欢与这些模型进行对话。其实在疫情期间,有些模型在公司内部是开放的。那时大家都在家里工作,你可以看到中午的时候这些模型的使用量激增,因为很多人在和虚拟聊天机器人对话——毕竟,独自在家时还能和谁聊呢?这些模型的训练目标是预测下一个合理的词汇或符号,而不是追求绝对的事实性。它预测的是一个概率上合理的句子,而这与事实是不同的。我认为,随着时间的推移,我们意识到,即使这些模型并非100%基于事实,它们依然非常有用。比如,你让它总结一个幻灯片的内容成五个要点——或许你可以争论第五个要点是不是完全正确,但即便如此,能够得到四个半准确的要点也已经非常有用了。当然,我们追求的是五个完全准确的要点,但即便没有做到,这些模型的实用性还是非常高的。
大模型上下文窗口
HANNAH FRY: 这种认识让你感到不安吗?毕竟,其他实验室已经更早地发布了他们的模型。你们当时是否因为这个事实性问题,而采取了非常谨慎的态度?
JEFF DEAN: 我认为我们确实有很多方面的担忧,事实性是其中之一。还有模型训练过程中产生的毒性和偏见问题,我们希望模型在很多方面能够减少偏见。所以在我们向公众发布之前,我们想在多个领域保持相对谨慎。我认为我们已经解决了很多问题,足以让我们相信我们推出的产品是有用的,尽管在事实性、偏见等方面还有改进空间。我觉得这需要人们稍微调整一下心态——既要追求做到最好,也要意识到,如果你不发布某些东西,就可能错失让很多人受益的机会,即使这些产品存在一些缺陷。
HANNAH FRY: 那么,面对这些缺陷,我们接下来该往哪个方向走呢?现在我们进入了一个概率计算的时代,以前我们用计算器输入同样的计算两次,都会得到相同的结果。而如今,计算变得更像人类一样——它们会犯错。这是需要公众接受的事情吗?还是你认为这些问题是可以解决的?
JEFF DEAN: 我觉得这两方面都有。技术上我们有很多方法可以改善事实性问题。举个例子,模型训练的数据——包含数万亿的符号和其他数据,这些数据被混合在一起形成了一个包含数十亿参数的巨型模型。我喜欢把它比作“见过很多东西,但记不太清楚”。但如果你在模型中提供一个长上下文窗口,这是我们在Gemini中一直在推进的事情之一。拥有一个长上下文窗口时,你可以放入大量直接的信息,这些信息可以用来总结、对比或提取其他信息。对于这种放在上下文窗口中的信息,模型会有更清晰的理解,因为它直接拥有文本和文本的表示,不会与其他所有它曾见过的东西混在一起。
HANNAH FRY: 所以,这个上下文窗口就是模型在某一时刻认为重要的部分,对吗?
JEFF DEAN: 是的,模型可以在这一部分上进行更细致的推理,而不是依赖它在训练过程中看到的其他东西。比如,你可以输入五个科学文章的PDF,然后问它:“你能告诉我这些文章中的共同主题是什么吗?”它能做到这一点,因为它有自己对这些文章内容的表示。这也是我们在Gemini模型中大力推进长上下文窗口的原因之一,因为我们认为这在事实性、视频总结以及很多其他方面都是非常有用的能力。
HANNAH FRY: 但这个上下文窗口有上限吗?你能一直扩展,直到变成无限的上下文窗口吗?
JEFF DEAN: 这是个很好的问题。目前,注意力机制的计算成本非常高。你试图让上下文窗口变得越长,计算成本就越高。
HANNAH FRY: 成本不仅在时间上,还包括计算资源。
JEFF DEAN: 对,计算资源、时间,最终还有金钱,都会受到影响。但我们认为,通过算法改进,有可能突破目前200万个token的上下文窗口。实际上,一百万个token已经很多了,相当于大约600页的文本。这可以覆盖大多数书籍、20篇文章,或者一小时的视频内容。
HANNAH FRY: 那么从另一面来看,你刚才提到可能是两者兼有,或许公众需要调整他们的期望?
JEFF DEAN: 是的,我认为这些模型是工具,用户需要了解这些工具的能力,同时也要知道什么时候不应该使用它们。这有点像一个教育过程,不要完全信任语言模型输出的每个事实。你需要对其进行一定的审查。就像现在我们教导人们,看到网上的信息并不一定是真实的。我认为对语言模型输出的某些内容保持类似的怀疑态度也是合适的。随着模型的改进,这种怀疑可能会减少,但保持健康的怀疑态度总是好的。
HANNAH FRY: 除了上下文窗口之外,还有没有其他方法可以帮助减少生成完全虚构内容的风险?
JEFF DEAN: 谷歌研究人员提出了一种叫做“链式思维提示”(chain of thought prompting)的方法。就像你给模型一个有趣的数学问题,然后直接问答案是什么,它可能答对,也可能答错。如果你换一种方式,问它:“这是一个有趣的数学问题,能否请你一步步展示你的解题过程?”就像你四年级的数学老师曾经要求的那样。他们可能会说,你应该一步步展示你的解题过程,然后写下最终答案。这是因为这样可以帮助你理清多步推理的过程,从被问到的问题开始,计算这个,再基于这个计算那个,最终得到答案。事实证明,这不仅使模型的输出更具可解释性,因为它展示了模型的思维过程,而且还增加了得到正确答案的概率。
HANNAH FRY: 那如果不是数学问题呢?
JEFF DEAN: 即便在那些没有明确正确答案的领域,这种方法也能起作用。当然,这里有些微妙之处,我认为人们需要学习如何使用这些模型。你如何提示模型,是决定输出质量的重要因素。比如,你说“总结一下这个内容”,这可能会得到一种结果;但如果你说“请总结一下这个内容,并给我五个要点,突出文章中的主要内容,并列出两点作者提到的缺点”,这会比简单地让模型“总结一下”给出更明确的指示。
HANNAH FRY: 那么,当我们将这些东西结合在一起时,比如分解步骤、理解更多的上下文以及多模态内容,是否意味着我们正朝着个性化方向发展?这些多模态模型会理解我们作为个体的偏好吗?
JEFF DEAN: 是的,我认为你真正想要的是一个非常个人化的Gemini版本,它不仅了解你现在正在做什么,还了解你做这些事情的背景。比如我是素食主义者,所以如果我在伦敦询问Gemini关于餐厅的推荐,它知道我是素食者,给出的推荐就会和非素食者的不同。一个通用模型不能像一个了解你和你背景的模型那样更好地满足每个人的需求。你可能会有一些想问模型的问题,现在Gemini还无法实现,但你可以想象到这些需求。比如:“你能不能用我上周远足拍的照片为我孩子今晚的睡前故事制作一个插图书?”它会知道这些照片是从哪里拍的,并制作出一个符合孩子口味的插图故事书。它可能还知道你孩子的年龄,从而制作出适合年龄的内容。
虽然现在还做不到这些,但这确实是未来可能有用的功能。你会希望人们主动选择让模型了解这些信息。随着模型掌握的信息越来越多,人们需要更好地理解这种数据使用的过程。我们可能不需要用这些数据直接训练模型,而是把相关信息放在上下文中,让模型在生成响应时调用这些信息。我认为这会是个不错的方式。
HANNAH FRY: 所以你有一个通用的结构,几乎可以将你的上下文嵌入其中,但这些信息是私密的。
JEFF DEAN:没错。
HANNAH FRY: 是的,那会非常好。我们是否仅限于音频、视觉以及你可以在屏幕上看到的语言等内容?或者我们是否可以期望这些助手会超越我们的电脑,走向更广泛的应用场景?
JEFF DEAN: 是的,我认为实际上还有很多不同类型的新模态数据,这些并不完全是人类的感官模态,比如全球各地的温度数据,用于天气预测;基因序列;或是用于自动驾驶汽车或机器人应用的LiDAR数据。你可能希望这些模型在某些场景下能够帮助解决现实世界中的机器人应用,能够与机器人设备对话,用普通语言给出指令。比如:“请去厨房把台面擦干净,把我放在台面上的汽水罐回收,然后拿一袋开心果给我。”机器人传统上并不能理解这种语言,但我认为我们正处于实现这种能力的边缘。然后机器人能够在像这个房间这样混乱的环境中完成50到100个有用的任务,而不仅仅是部署在世界上那些非常可控的环境中,比如工厂流水线那样,它们只是从这里移动到那里,完成非常可预测的任务。
多模态大模型应用
HANNAH FRY: 我们一直在讨论这些助手,它们能够增强人类能力。我可以看到它在医疗、教育等领域的应用。但你觉得多模态的应用在我们理解世界方面还能带来什么更多的帮助吗?
JEFF DEAN: 是的,我认为这些模型现在能够做到的是进行一些推理步骤,从你提出的要求出发,最终实现目标。随着这些模型能力的提升,你将能够让它们和你一起完成更复杂的任务。这就像从“你能帮我订一些椅子”变成“帮我策划一个会议”一样。后者的复杂度要高得多。合适的模型会问你很多后续问题,因为其中存在很多不确定性。比如有多少人参加?会议主题是什么?就像人类一样。
HANNAH FRY: 你在哪个国家?
JEFF DEAN: 对,你在哪个国家?你想在哪举行?什么时候举行?然后它会开始着手,帮助你实现很多你想要完成的高层次目标。
HANNAH FRY: 如果模型有这种概念链接,比如理解图片、理解重力,我回到“牛”的例子,它或许通过网络视频也看过了很多相关内容。
JEFF DEAN: 它可能还看过一些基础物理学的讲座。
HANNAH FRY: 是吧?哇哦,没错,它可能从这个角度理解了这些东西。可能也见过很多东西下落。那么,有一天你是否可以对模型说:“给我设计一架高效的飞机的蓝图”?
JEFF DEAN: 是的,我认为这些模型需要与某种探索过程结合起来。而这个探索过程可能并不需要在200毫秒内给你答案。也许你会愿意等到第二天再得到飞机的设计结果。因此,这给了我们更多自由去设计系统,比如通过模拟器来尝试几种设计,或者创建一个基础流体动力学的模拟器进行实验。它可能会从见过的许多飞机中得到一些设计思路,试图完成你的要求。当然,它也许会先问你:“你希望你的飞机具备哪些特性?”
HANNAH FRY: 结果我想要的只是一架纸飞机。
JEFF DEAN: 纸飞机,是的,知道是纸做的会大大降低成本。我觉得这些能力最终会实现。虽然现在还很难确切地说这些能力什么时候会出现,这需要结合模型的推理能力、知识储备、你的要求和你提问的方式。但我们已经看到这些模型在5年、10年期间的能力有了巨大的进步。因此,在未来的5年或10年内,你或许真的可以说:“帮我设计一架具备这些特性的飞机。”甚至可能更早。
HANNAH FRY: 但我猜这些只是我们希望实现的“阿波罗”计划的早期前兆。
JEFF DEAN: 是的,没错,这就是为什么我们称它为Gemini。
HANNAH FRY: 太棒了。Jeff,非常感谢你加入我们的节目。
JEFF DEAN: 很高兴来到这里。
原视频链接:https://www.youtube.com/watch?v=lH74gNeryhQ
对了,喜欢就别忘了点赞、收藏、转发支持一下!期待在评论区听到你的观点和看法!
我们旨在将先进科技与创新想法完美融合!
想要掌握人工智能,但不知从何开始?告诉我们你的需求,学习AI让你抓住这波浪潮
告别昂贵服务和缺人烦恼,再见漫长交付周期
无限创意,分分钟生成专业级产品
感受 AI 带来的全新工作体验!
欢迎各大品牌方、媒体、企业和个人等
请联系负责人微信:Milo-1101
--END--