Google I/O 2022: 促进知识和计算机技术发展
以下文章来源于谷歌黑板报 ,作者谷歌黑板报
2022 年 5 月 12 日
大约在 24 年前,Google 由两名研究生创立,当时 Google 拥有一个产品,以及一个远大的使命: 整合全球信息,供大众使用,使人人受益。在那之后的几十年里,我们一直在推进我们的技术来实现这一使命。
我们所取得的进步源于我们多年来对先进技术的投入,从人工智能到为这一切提供动力的技术基础设施。每年一次,在我一年中最喜欢的一天:) 我们在 Google I/O 与大家分享最新进展。
今天,我谈到了我们如何提高我们使命的两个基本方面——知识和计算的发展——来创造能够提供帮助的产品。开发这些产品是令人兴奋的;更令人兴奋的是看到这些产品能够帮助大家做些什么。
感谢所有帮助我们完成这项工作的人,尤其是 Google 的同事们。我们很感激有这次机会。
- Sundar
大家好,欢迎大家!时隔三年,能再回到海岸线圆形剧场的感觉真好!我想对成千上万的开发者、合作伙伴和 Google 的同事们说: "很高兴见到大家",也想对在世界各地收看此次大会的数百万观众朋友们说,"很高兴大家能来"。
去年,我们分享了在一些最具技术性挑战的计算机科学领域中的新突破,以及这些突破如何能让 Google 的产品在关键时刻发挥更大作用。我们做的这一切都是为了实现 Google 永恒的使命: 整合全球信息,供大众使用,使人人受益。
我也迫不及待地想给大家展示 Google 是如何通过两种关键方式来推进这一使命的实现: 其一,深化我们对信息的理解,从而将信息转化为知识;其二,推动计算机技术发展,不论大家身在何处,都能方便快捷地获取信息和知识。
今天,大家将看到我们在上述两种方式上取得的进展,以及这些进展是怎样确保 Google 的产品能够惠及大众。我先举几个简单的例子。在新冠疫情期间,Google 一直致力于提供准确的信息,帮助大家保持健康。去年,有近 20 亿次搜索是使用 Google Search 和 Google Maps 来寻找疫苗接种点的。
△ 去年,Google 的洪水预测技术向在印度及孟加拉国的 2,300 万人发送了洪水预警
我们还提升了 Google 的洪水预测技术,能让面临自然灾害的人们平安无恙。在去年的季风季,我们向在印度及孟加拉国的 2,300 多万人发送了洪水预警。据我们估计,这帮助了成千上万的人及时疏散。
Google 翻译新增了 24 种语言
在世界各国,Google 翻译已经成为了外来客与当地居民互相沟通的重要工具。
△ 通过机器学习技术,我们给 Google 翻译新增了包括盖丘亚语在内的新语种
因此,随着机器学习的进步,我们开发了一种单语方式,能让翻译模型在从未见过某种新语言的直译版本的情况下,直接去学习翻译此新语言。通过与母语人士及当地机构合作,我们发现用单语方式进行的翻译质量达标,我们也将进一步提升翻译质量。
△ 我们为 Google 翻译新增了 24 种新语言
Google Maps 新升级
许多关于我们这个世界的可知信息都超越了语言的范畴——它们存在于我们周围的物理和地理空间中。超过 15 年来,Google Maps 一直致力于将这些信息以丰富且有用的形式呈现出来,以帮助用户导航。AI 的进步正在将这项工作推向新的高度,无论是将我们的覆盖范围扩大到偏远地区,还是重新设想如何以更直观的方式探索世界。
△ AI 的进步有助于绘制偏远和农村地区的地图
今年,我们在印度和印度尼西亚绘制的建筑物数量也增加了一倍。在全球范围内,Google Maps 上超过 20% 的建筑物都已经使用这些新技术进行了探测。在此基础上,我们还向公众公开了非洲的建筑物数据集,联合国和世界银行等国际组织已经在使用这些信息,以更好地了解当地人口密度,并提供支持和紧急援助。
△ Google Maps 中的沉浸式视图将航拍和街景图像融合
让我们去伦敦看看吧。假设用户计划和家人一起参观威斯敏斯特。用户现在可以直接从手机上的 Google Maps 获得这种身临其境的视野,还可以在景点周围移动......这就是威斯敏斯特大教堂。如果用户想前往大本钟,那么可以在地图上看到去往大本钟的道路交通是否拥堵,甚至可以看到天气预报。如果还想在参观期间吃点东西,用户可以查看附近的餐厅,并且到餐厅的里面看看。
令人惊奇的是,这并不是有一架无人机在餐厅里飞行拍摄——这是我们使用神经渲染技术,仅通过图像来创造的体验。Google Cloud Immersive Stream 让这种体验可以在几乎所有智能手机上运行。这项功能将于今年晚些时候在 Google Maps 中针对全球部分城市推出。
Google Maps 的另一个重大升级是我们推出了环保路线。这项功能已于去年落地,它能够为用户显示最节约油耗的路线,提供更加节约并且减少碳排放的选择。环保路线已经在美国和加拿大推出,用户已经按照这些路线行驶了约 860 亿英里,减少了约 50 万公吨的碳排放,相当于路面上减少了 10 万辆正在行驶的汽车。
△ 环保路线将于今年晚些时候扩展到欧洲
我们同样在 Google Flights 上增加了一个类似的功能。当用户搜索两个城市之间的航班时,我们也会向用户显示碳排放估值以及价格和时间表等其他信息,让用户轻松选择更加环保的航班。Google Maps 和 Google Flights 中的这些环保功能是我们非常重要的目标,即让 10 亿人通过我们的产品做出更可持续的选择,我们非常高兴能够看到这些进展。
YouTube 新功能帮助用户轻松访问视频内容
去年,我们推出了自动生成的章节,让用户可以更轻松地跳转到最感兴趣的部分。这对创作者来说也是很棒的功能,因为它节省了创作者制作章节的时间。我们现在正在应用 DeepMind 的多模式技术,这项技术可以同时使用文本、音频和视频,并以更高的准确性和更快的速度自动生成章节。有了这个功能,我们现在的目标是将自动生成章节的视频数量增加 10 倍,从目前的 800 万到明年的 8,000 万。
通常,了解视频内容的最快方法是阅读它的脚本,所以我们也在使用语音识别模型来转录视频。现在所有 Android 和 iOS 的用户都可以获取视频的脚本。
△ YouTube 上的自动生成章节
Google Workspace 帮助提升工作效率
在 Google,每当我收到一份长的文件或电子邮件时,我都会在顶部寻找 "TL;DR"——"太长未读" 的缩写。这让我们想到,如果更多的事情可以有 "TL;DR",生活不是会更好吗?
这就是为什么我们为 Google Docs 引入了自动总结功能。将我们其中一个机器学习模型应用在文本总结功能中,Google Docs 将自动解析单词并提取出要点。
这标志着自然语言处理的一个大飞跃。总结需要理解长段落、压缩信息并生成语言,而这些已经超出过去最好的机器学习模型的能力。
而文档只是一个开始。我们正努力将总结功能引入 Google Workspace 的其他产品。在接下来的几个月里,Google Chat 将使用该功能,为聊天对话提供摘要,帮助用户迅速加入群聊,或回顾重点信息。
△ 在未来几个月内,我们将在 Google Chat 中加入总结功能
改进 Google Meet 视频
Project Starline 启发了机器学习驱动的图像处理,可以自动改善 Google Meet 的图像质量。而且这项技术适用于所有类型的设备,因此无论您在哪里,都能展现您的最佳形象。
△ 机器学习驱动的图像处理,自动提高了 Google Meet 的图像质量
△ 今天在 I/O 大会上,Prabhakar Raghavan 分享了我们如何帮助人们利用 Google Search 以更直观的方式找到有用的信息
通过计算使知识更易获得
现在我们致力于通过计算使这些知识更容易获得。我们在计算方面所走过的旅程令人兴奋。从桌面到网络到移动设备到可穿戴设备的每一次转变,以及环境计算都使知识在我们的日常生活中更加有用。
尽管我们的设备很有帮助,但我们不得不相当努力地去适应它们。我一直认为应该由计算机来适应人,而不是人来适应计算机。我们将继续追寻这方面的进展。
这里是我们如何利用 Google Assistant 使计算更加自然和直观地呈现。
推出 LaMDA 2 和 AI Test Kitchen
△ 我们研发的用于对话应有的生成语言模型 LaMDA 的 Demo,以及 AI Test Kitchen
去年,我们发布了 LaMDA,这是一个用于对话应用的生成语言模型,可就任何主题展开对话。今天,我们很高兴能公开 LaMDA 2,Google 目前打造的最先进的对话 AI。
目前,这些模型的实际应用还处于初始阶段,我们有责任去不断完善它们。为了取得进展,我们需要使用者体验技术并提供反馈。我们已经向数千名愿意参与测试和了解其功能的 Google 同事们开放了 LaMDA,显著提升了它的对话质量,减少了不准确或冒犯性的回复。
这就是我们要研发 AI Test Kitchen 的原因,这是一种与更大范围的用户一起探索 AI 功能的新方式。AI Test Kitchen 有数种不同的体验方式,每种方式都旨在让用户了解自己在现实生活中如何使用 LaMDA。
第一个 Demo 是 "想象",测试模型是否可以理解用户提供的创意,生成富有想象力的相关描述。这些体验方式不是产品,只是让我们和您能一起探索 LaMDA 能做什么。用户界面非常简单。
假设您正在写一个故事,需要一些灵感。也许您的角色之一正在探索深海,那么您可以问 LaMDA,在这种情境下会有什么感觉。在此,LaMDA 描绘了马里亚纳海沟里的一个场景,它甚至还可以即时生成后续问题。您可以让 LaMDA 想象一下那里可能生活着什么样的生物。需要强调的是,我们并没有为一些特定话题,比如潜水艇或生物发光进行手动编程,而是 LaMDA 自己根据训练数据整合了这些概念。这就是为什么您几乎可以询问任何话题: 土星环,甚至是 "由冰淇淋制成的星球"。
不跑题是语言模型的一大挑战。在打造机器学习体验的过程中,我们希望它既足够开放,让人们能够探索好奇心会把他们带到哪里,又集中于话题本身。我们的第二个 Demo 展示了 LaMDA 如何做到这一点。
在这个 Demo 中,我们设置模型专注于与狗相关的主题。它首先生成了一个能开启对话的问题: "您有没有想过为什么狗这么喜欢玩捡东西?" 如果您问一个后续问题,您会得到更细化的答案: 狗觉得很有趣,这和狗的嗅觉和狩猎感有关。
用户可以就任何方面展开后续对话。也许您对狗的嗅觉的工作原理感到好奇,并且想更深入地研究。那么,您也能得到专门的回复。无论您问什么,LaMDA 都会努力将对话限定在与狗相关的这一话题范围内。如果我开始问板球相关的问题,那么模型可能会以一种有趣的方式将对话带回狗身上。
保持不离题是个很棘手的挑战,要想使用语言模型打造有用的应用程序,这是很重要的一个研究领域。
AI Test Kitchen 的这些体验表明了语言模型有帮助我们进行计划、了解世界和完成很多其它事情的潜力。
当然,在这些模型真正有用之前,还需要解决一些重大挑战。虽然我们提高了安全性,但该模型仍可能生成不准确、不适当或冒犯性的回应。这就是我们积极邀请用户提供反馈的原因,这样他们就可以反馈问题。
我们将按照 Google AI 的原则进行所有工作。我们将不断迭代 LaMDA,在未来几个月逐步开放,并仔细、广泛地评估利益相关者的反馈——从 AI 研究人员和社会科学家到人权专家。我们将把这些反馈整合到 LaMDA 的未来版本中,并随时分享我们的发现。
将来,我们计划在 AI Test Kitchen 中添加其它新兴 AI 领域。您可以在 g.com/AITestKitchen 中了解更多。
让 AI 语言模型更强大
PaLM 在许多自然语言处理任务上都有着突破性的表现,例如从文本生成代码,回答数学问题,甚至解释一个笑话。
PaLM 通过扩大模型规模实现了这一点。当我们将这种大规模模型与一种名为 "思维提示链 (chain-of-thought)" 的新技术结合起来时,结果是令人充满希望的。"思维提示链" 让模型可以将需要多步解决的问题转化为一系列的中间步骤来处理。
让我们以一个需要推理的数学问题为例。通常,我们在使用模型前需要先以其它问题和答案训练它,然后再提问。在这个例子里,问题是: 五月有多少个小时?可以看到,模型并没有给出正确的答案。
在 "思维提示链" 中,我们给模型输入一对 "问题—答案",同时解释了答案是如何得出的。这有点像您的老师一步一步地向您讲解如何解题。现在,如果我们再问模型 "五月有多少个小时" 或者其它相关问题,它能给出正确答案和解答过程。
△ "思维提示链" 技术让模型能更好地进行推理,给出更准确的答案
此外,功能强大的 PaLM 还能做到更多。例如,网络上现在可能没有足够多的以您所使用的语言提供的信息。更令人沮丧的是,您所搜寻的答案可能就在某处,只是没有以您看得懂的语言呈现,而 PaLM 提供了一种有望让每个人都更容易获得知识的新方法。
让我展示一个示例,PaLM 可以用孟加拉语 (一种有 2.5 亿人使用的语言) 回答问题,就像我们用孟加拉语的问题,以及孟加拉语和英语的答案训练了它一样。
就是这样,现在我们可以开始用孟加拉语提问: "孟加拉国的国歌是什么?" 顺便说一句,答案是 "Amar Sonar Bangla" ——PaLM 也答对了。这并不令人惊讶,因为在孟加拉语资料中很显然能找到相关答案。
您还可以尝试一些不太可能以孟加拉语找到相关信息的问题,比如: "纽约流行的披萨配料是什么?" 该模型再次以孟加拉语做出了正确回答。虽然它的回答到底有多 "正确",这一点很可能在纽约人之间引发辩论。
令人印象深刻的是,PaLM 从未见过孟加拉语和英语之间的对译。我们也从未训练过它如何回答问题或翻译!该模型自己将所有功能结合在一起,可以用孟加拉语正确回答问题。我们可以将这些技术扩展到更多的语言和其他复杂的任务。
我们对语言模型的潜力非常乐观。有朝一日,我们希望我们能以用户说的任何语言回答更多问题,让知识在 Google Search 和其它 Google 的工具中更容易被获取。
推出全世界最大的开放机器学习中心
我们今天所分享的进步之所以能成为现实,离不开我们在基础设施方面的持续创新。我们最近还宣布了 Google 计划向美国各地的数据中心和办公室投资 95 亿美元。
我们最先进的数据中心之一位于俄克拉荷马州的梅斯县。我激动地宣布: 我们将为 Google Cloud 客户推出全世界最大的开放机器学习中心。
△ 我们最先进的数据中心之一,位于美国俄克拉荷马州梅斯县
说到可持续发展,该机器学习中心已达到 90% 的无碳能源运营。这能帮助我们实现自己的目标,即到 2030 年时,旗下所有的数据中心和园区实现全天候无碳运营,我们要成为第一个做到这一点的大公司。
在投资数据中心的同时,我们也在努力创新 Google 的移动平台,这样更多的数据处理就可以在本地设备上进行。Google 定制的 Google Tensor 芯片是朝此方向迈进的重要一步。Pixel 6 和 Pixel 6 Pro 旗舰手机已搭载 Google Tensor 处理器,让您的手机直接拥有 AI 功能,包括我们所应用的最好的语音识别技术。这也是向 "让设备更安全" 这一目标迈出的一大步。与 Android 的 Private Compute Core 结合后,这项技术可以直接在设备上运行数据驱动的功能,保护您的隐私。
不管是至关重要还是微不足道的时刻,每天都有人向我们的产品寻求帮助。让这一点成为可能的关键就是在每一步都保护用户的隐私信息。尽管技术正变得日益复杂,但我们的产品是安全的,从设计上保护隐私,让用户拥有控制权,因此,在让全世界更多人能安全上网这一点上,我们比其他人走得更远。
计算技术新前沿——增强现实技术
展望未来,信息技术领域有了一个新战线,它拥有推动现有技术继续发展的潜质,它就是增强现实技术 (AR)。Google 在 AR 领域投入颇多: 我们已将 AR 引用到许多产品当中,包括 Google Lens、多重搜索 (multisearch)、场景探索 (scene exploration) 以及 Google Maps 的 Live Views 和沉浸式视图功能。
AR 各项性能已应用于手机终端,其神奇之处在于它可以在现实世界中为我们带来最真实、自然的体验,仿佛我们并非在使用科技。
最令人振奋的是 AR 的潜力,也就是它能使我们去关注真实的世界、真实的生活。要知道,我们所生活的这个世界本就精彩无限!
我们基于现实世界进行创作设计,绝不脱离现实,这一点至关重要。AR 恰恰是能够帮助我们实现这种设计理念的新方法。
以语言为例,语言是人与人之间沟通的基础。然而,如果对方讲着另一种语言,或者会话的一方有听觉障碍时,沟通就变得困难重重。我们来看看当我们将最新技术应用在翻译和语言转录中,并在早期测试原型中呈现出来时,会出现什么效果。
每一年,我们都在向我们的终极使命迈进,未来的路还很长。Google 真切地为此感到振奋!我们抱以乐观的态度,坚信我们取得的突破将引领我们完成使命。感谢所有与会开发者、合作伙伴和消费者。我们期待与各位一起共筑未来。