查看原文
其他

万字长文:Google AI 技术大牛Jeff Dean 2020年回顾 | IIR Highlights

GoogleAI Blog等 机构投资者评论 2023-10-18

机构投资者评论Institutional Investor Review:记录最杰出的投资人物与事件



来源:新智元、GoogleAI Blog等转载授权、商务合作等请联系后台



 

人工智能领域主要有两大流派,生物派和技术派。生物派强调探索人脑结构功能及其运转机理,模拟人脑的思维方式、过程与决策方法;技术派主要借助最新算法、芯片技术、超级计算等前沿技术,来不断迭代提升人工智能水平。


最近几年,人工智能被炒得火热,2020的新冠疫情又再次推动人工智能技术的场景落地。智能外呼系统、口罩人脸识别、甚至小到基于线性时间算法的LinearFold,只需27秒,就可预测新冠病毒的全基因组二级结构。


而在2017年已确定人工智能先行(AI First)战略的Google,如今每一个比特,都是人工智能。


2021年已过十余天,谷歌的大拿Jeff Dean(谷歌技术代名词,Level 11)也在Google AI Blog发表了一篇万字长文,回顾了谷歌AI在2020年的发展与成就,同时展望了2021年的工作重点。


谷歌的创新文化,也渗透到我们国内的众多创业者。拼多多黄峥、淘宝蒋凡、快手宿华,均曾在此任职过。谷歌如何打造出独特的创新文化?IIR特此分享Google 2020 AI落地应用的最新亮点,并附创意PPT,讲述Google文化中的创新逻辑。



 

Google 2020 10大领域AI技术发展



「当我20多年前加入谷歌的时候,只想弄清楚如何真正开始使用电脑在网络上提供高质量和全面的信息搜索服务。时间快进到今天,当面对更广泛的技术挑战时,我们仍然有着同样的总体目标,那就是组织全世界的信息,使其普遍可获取和有用。

 

2020年,随着世界被冠状病毒重塑,我们看到了技术可以帮助数十亿人更好地交流,理解世界和完成任务。我为我们所取得的成就感到骄傲,也为即将到来的新的可能性感到兴奋。」

 

Google Research 的目标是解决一系列长期而又重大的问题,从预测冠状病毒疾病的传播,到设计算法、自动翻译越来越多的语言,再到减少机器学习模型中的偏见。


本文涵盖了今年的关键亮点。



新冠病毒和健康


COVID-19的影响给人们的生活带来了巨大的损失,世界各地的研究人员和开发人员联合起来开发工具和技术,以帮助公共卫生官员和政策制定者理解和应对这场流行病。

 

苹果和谷歌在2020年合作开发了暴露通知系统(ENS) ,这是一种支持蓝牙的隐私保护技术,如果人们暴露在其他检测呈阳性的人群中,可以通知他们。

 

ENS 补充了传统的接触者追踪工作,并由50多个国家、州和地区的公共卫生当局部署,以帮助遏制感染的传播。

 

在流感大流行的早期,公共卫生官员表示,他们需要更全面的数据来对抗病毒的快速传播。我们的社区流动性报告,提供了对人口流动趋势的匿名追踪,不仅帮助研究人员了解政策的影响,如居家指令和社会距离,同时还进行了经济影响的预测。

我们自己的研究人员也探索了用这种匿名数据来预测COVID-19的传播,用图神经网络代替传统的基于时间序列的模型。

 

冠状病毒疾病搜索趋势症状允许研究人员探索时间或症状之间的联系,比如嗅觉缺失---- 嗅觉缺失有时是病毒的症状之一。为了进一步支持更广泛的研究社区,我们推出了谷歌健康研究应用程序,以提供公众参与研究的方式。

 

图:COVID-19搜索趋势正在帮助研究人员研究疾病传播和症状相关搜索之间的联系

 

谷歌的团队正在为更广泛的科学界提供工具和资源,这些科学界正在努力解决病毒对健康和经济的影响。

 

图:一个模拟新冠病毒扩散的时空图

 

我们还致力于帮助识别皮肤疾病,帮助检测老年黄斑变性(在美国和英国是导致失明的主要原因,在全世界是第三大致盲原因) ,以及潜在的新型非侵入性诊断(例如,能够从视网膜图像中检测出贫血的迹象)。

 

图:深度学习模型从视网膜图像中量化血红蛋白水平。血红蛋白水平是检测贫血的一项指标

 

今年,同样的技术如何可以窥视人类基因组,也带来了令人兴奋的演示。谷歌的开源工具DeepVariant,使用卷积神经网络基因组测序数据识别基因组变异,并在今年赢得了FDA的4个类别中的3个类别的最佳准确性的挑战。丹纳-法伯癌症研究所领导的一项研究使用同样的工具,在2367名癌症患者中,将导致前列腺癌和黑色素瘤的遗传变异的诊断率提高了14% 。


 

天气、环境和气候变化


机器学习能帮助我们更好地了解环境,并帮助人们在日常生活中以及在灾难情况下做出有用的预测。

 

对于天气和降水预报,像 NOAA 的 HRRR 这样基于计算物理的模型一直占据着主导地位。然而,我们已经能够证明,基于ML的预报系统能够以更好的空间分辨率预测当前的降水量(“西雅图的本地公园是不是在下雨? ”而不仅仅是“西雅图在下雨吗? ”)它能够产生长达8小时的短期预报,比 HRRR 准确得多,并且能够以更高的时间和空间分辨率更快地计算预报。

 

我们还开发了一种改进的技术,称为 HydroNets,它使用一个神经网络来建模真实的河流系统,以更准确地了解上游水位对下游洪水的相互作用,做出更准确的水位预测和洪水预报。利用这些技术,我们已经将印度和孟加拉国的洪水警报覆盖范围扩大了20倍,帮助在25万平方公里内更好地保护了2亿多人。

 



可访问性(Accessibility)

 

机器学习继续为提高可访问性提供了惊人的机会,因为它可以学会将一种感官输入转化为其他输入。举个例子,我们发布了 Lookout,一个 Android 应用程序,可以帮助视力受损的用户识别包装食品,无论是在杂货店还是在他们家的厨房橱柜里。 

 

Lookout 背后的机器学习系统演示了一个功能强大但紧凑的机器学习模型,可以在有近200万个产品的手机上实时完成这一任务。

 

同样,使用手语交流的人很难使用视频会议系统,因为即使他们在手语,基于音频的扬声器检测系统也检测不到他们在主动说话。为视频会议开发实时自动手语检测,我们提出了一种实时手语检测模型,并演示了如何利用该模型为视频会议系统提供一种识别手语者为主动说话者的机制。

 

 

机器学习在其他领域的应用


2020年,我们与 FlyEM 团队合作,发布了果蝇半脑连接体,这是一种大型突触分辨率图谱的大脑连接,重建使用大规模机器学习模型应用于高分辨率电子显微镜成像的脑组织。这些连接体信息将帮助神经科学家进行各种各样的研究,帮助我们更好地理解大脑是如何运作的。

 


负责任的人工智能

 

为了更好地理解语言模型的行为,我们开发了语言可解释性工具(LIT) ,这是一个可以更好地解释语言模型的工具包,使得交互式探索和分析语言模型的决策成为可能。

 

我们开发了在预训练语言模型中测量性别相关性的技术,以及在谷歌翻译中减少性别偏见的可扩展技术。

 

为了帮助非专业人员解释机器学习结果,我们扩展了2019年引入的 TCAV 技术,现在提供了一套完整而充分的概念。我们可以说“毛”和“长耳朵”是“兔子”预测的重要概念。通过这项工作,我们还可以说,这两个概念足以充分解释预测; 您不需要任何其他概念。 

概念瓶颈模型是一种技术,通过训练模型,使其中一层与预先定义的专家概念(例如,“骨刺呈现” ,或“翅膀颜色” ,如下所示)保持一致,然后再对任务做出最终预测,这样我们不仅可以解释这些概念,还可以动态地打开/关闭这些概念。

 


自然语言理解

更好地理解语言是我们今年看到相当大进展的一个领域。谷歌和其他公司在这个领域的大部分工作现在都依赖于transformer,这是一种特殊风格的神经网络模型,最初是为了解决语言问题而开发的(但是越来越多的证据表明,它们对图像、视频、语音、蛋白质折叠以及其他各种各样的领域也很有用)。

 

在2020年,我们描述了 Meena,一个对话机器人,可以聊任何事情。 


 

机器学习算法


谷歌仍向无监督学习方向大力发展,例如2020年开发的SimCLR,推进自监督和半监督学习技术。
使用不同的自监督方法(在ImageNet上预训练)学习的表示形式,对ImageClass的分类器进行ImageNet top-1准确性训练。灰色十字表示受监管的ResNet-50。

 

强化学习


强化学习通过学习其他主体以及改进探索,谷歌已经提高了RL算法的效率。

他们今年的主要重点是离线RL,它仅依赖于固定的,先前收集的数据集(例如先前的实验或人类演示),从而将RL扩展到了无法即时收集训练数据的应用程序中。研究人员为RL引入了对偶方法,开发了改进的算法以用于非策略评估,此外,他们正在与更广泛的社区合作,通过发布开源基准测试数据集和Atari的DQN数据集来解决这些问题。

使用DQN重播数据集的Atari游戏的离线RL

另一个研究方向是通过学徒制学习(apprenticeship learning),向其他代理学习,从而提高了样本效率。

需要注意的是,将RL扩展到复杂的实际问题来说是一个重要的挑战。
概述我们的方法并说明AttentionAgent中的数据处理流程。顶部:输入转换 - 一个滑动窗口将输入图像分割成更小的补丁,然后将它们 "扁平化",以便将来处理。中间。补丁选举 - 修改后的自我注意力模块在补丁之间进行投票,以生成补丁重要性向量。底部:动作生成--AttentionAgent在补丁之间进行投票,生成补丁的重要性向量。行动生成--AttentionAgent选择重要性最高的补丁,提取相应的特征,并基于这些特征做出决策。



AutoML


毫无疑问,这是一个非常活跃和令人兴奋的研究领域。


我在AutoML-Zero中:不断学习的代码,我们采用了另一种方法,即为演化算法提供一个由非常原始的运算(例如加法,减法,变量赋值和矩阵乘法)组成的搜索空间,以查看是否有可能从头开始发展现代ML算法。

但是,有用的算法实在太少了。如下图所示,该系统重塑了过去30年中许多最重要的ML发现,例如线性模型,梯度下降,校正线性单位,有效的学习率设置和权重初始化以及梯度归一化。

 

更好地理解ML算法和模型


随着神经网络被做得更宽更深,它们往往训练得更快,泛化得更好。这是深度学习中的一个核心奥秘,因为经典学习理论表明,大型网络应该超配更多。

在无限宽的限制下,神经网络呈现出惊人的简单形式,并由神经网络高斯过程(NNGP)或神经切线核(NTK)来描述。谷歌研究人员从理论和实验上研究了这一现象,并发布了Neural Tangents,这是一个用JAX编写的开源软件库,允许研究人员构建和训练无限宽度的神经网络。
左:该示意图显示了深层神经网络如何随着简单的输入/输出图变得无限宽而引发它们。右图:随着神经网络宽度的增加,我们看到在网络的不同随机实例上的输出分布变为高斯分布。



机器感知


对我们周围世界的感知--对视觉、听觉和多模态输入的理解、建模和行动--仍然是一个具有巨大潜力的研究领域,对我们的日常生活大有裨益。

2020年,深度学习使3D计算机视觉和计算机图形学更紧密地结合在一起。CvxNet、3D形状的深度隐含函数、神经体素渲染和CoReNet是这个方向的几个例子。此外,他们关于将场景表示为神经辐射场的研究(又名NeRF,也可参见本篇博文)是一个很好的例子,说明Google Research的学术合作如何刺激神经体量渲染领域的快速进展。
在与加州大学伯克利分校合作的《学习因素化和重新点亮城市》中,谷歌提出了一个基于学习的框架,用于将户外场景分解为时空变化的照明和永久场景因素。这能为任何街景全景改变照明效果和场景几何,甚至将其变成全天的延时视频。

2020年,他们还使用神经网络进行媒体压缩的领域不断扩大,不仅在学习的图像压缩方面,而且在视频压缩的深层方法,体压缩以及深不可知的图像水印方面都取得了不错的成绩。

第一行:没有嵌入消息的封面图像。第二行:来自HiDDeN组合失真模型的编码图像。第三行:来自我们模型的编码图像。第四行:HiDDeN组合模型的编码图像和封面图像的归一化差异。第五行:模型的归一化差异

通过开源解决方案和数据集与更广泛的研究社区进行互动是另一个重要方面。2020年,谷歌在MediaPipe中开源了多种新的感知推理功能和解决方案,例如设备上的面部,手和姿势预测,实时身体姿势跟踪,实时虹膜跟踪和深度估计以及实时3D对象检测。

「最后,展望这一年,我特别热衷于构建更多通用机器学习模型的可能性,这些模型可以处理各种模式,并且可以通过很少的培训示例来自动学习完成新任务。

该领域的进步将为人们提供功能更强大的产品,为全世界数十亿人带来更好的翻译,语音识别,语言理解和创作工具。 

这种探索和影响使我们对工作感到兴奋!」


 

Google的创新逻辑


Google前CEO埃里克·施密特

54张公开PPT:《Google是如何运作的》

当乔纳森和施密特刚加入 Google 的时候,我们以为自己已经知道了关于成功经营的所有诀窍。


但我们很快就发现自己对经营的见解全都错得离谱。


我们需要制定出一套新的商业规则,让公司在互联网时代也能站稳脚跟。以下是我们总结的经验。


我们首先抛出一个施密特最爱问的问题:现在和之前有什么区别?


有什么区别?


有什么变得不一样了?有哪些人们的假设已经不再正确?为什么事物似乎发展得越来越快?


以下是我们给出的答案:


科技正在改变商业的方方面面。全世界的信息和媒体都是在线的。移动设备让人们可以随时随地联系任何人。云计算将一个超级计算机收入你的口袋中。


因此,多年以来的准入门槛也不复存在。现存的企业极易受到竞争和干扰的影响。


这种改变速度空前,而且仍在加速。摩尔定律已经应验,科技正在失控。


占据主导的不再是企业,而是消费者,人们抱着前所未有的期待。企业不再可能借一款低劣的产品就侥幸成功,即使成功了也不可能持续太久。一个很好的例子就是,低劣的产品会收到很低的评分,这使得市场灵活而真实。在今天,优质的产品才能获胜。


同时,企业的力量也发生了巨变。个体或小团队可以拥有巨大的影响力。他们可以创造出崭新的想法,再历经测试、失败,再重新开始,最后成功获得全球市场。


这些拥有最大影响力的人,我们称之为“聪明的创意人员”。


他们是结合了知识、商业专长和创造力的产品人。如果你把当今的科技工具放到他们手中,并给予他们发挥的自由,他们可以以一种出奇的速度,创造出奇的产品。


问题是,今天的大多数企业,他们的目的是让风险最小化,而不是让自由和速度最大化。信息和数据被严格保密,却没有用作共享。在过去的年代,犯错成本高昂,人们赞赏三思而后行,而他们的设计就是那个年代遗留的产物。决策权被掌握在少数人手中。


换言之,绝大部分公司在设计方面都行动太缓慢!


这在互联网时代根本行不通。


那么,什么才行得通?


创建一项成功的互联网时代冒险事业。


我们发现,只有吸引聪明的创意人员作员工,并为他们创造出开放式成长的环境,事业才能长久地保持成功。


你应该怎么做呢?


首先,你需要吸引那些聪明的创意人员,他们可不容易糊弄。


你得从企业文化着手。创意人员在意他们工作的环境。


所以,尽早开始规划企业文化。作为团队你在乎什么,工作和决策的方式是怎样的,这些都要考虑并梳理成文档。


然后按照企业文化中的标语说的那样生存下去。


最好是以小团队的形式工作,让大家保持关系紧密,并抓住偶然发现的联系好好培养。


围绕着那个影响力最大的人组建企业团队。


接下来要考虑的便是策略。大多数人开创一份冒险事业前都会做商业计划。但是事物变化得太快,任何完全 MBA 式的商业计划都必定在某些至关重要的方面是错的。


聪明的创意人员知道这一点,他们会担心,一份规规矩矩的商业计划会妨碍他们的自由。


(乔纳森刚进入 Google 的时候,他的第一个产品中就有这样一份计划。拉里·佩奇(Google 现任 CEO)说那份计划看起来很蠢。)


你的事业不应该建立在一份商业计划上,而应该以策略为基础。你可以有计划,但要心里有数,这份计划可能会有很大变动。计划是可变的,策略却很稳定。


好的策略基础有三根支柱:1、创造基于独特科技洞察的优秀产品;2、为增长而不是利润做调整;3、知道竞争对手的情况,但不随同。


好了,现在要把那些创意人员招进公司。切记,你要做的最重要的事就是招聘。


很多人都这么说,但他们还是把事情委托给人事相关人员。每个人,每!一!个!人!都要在招聘环节上肯花费精力。


现在你已经吸引并组建了一个充满创意人员的团队,你需要给他们一个放养的环境,让他们可以自由成长。


这从你制定决策的方式开始。正确的方式可以让他们知道,自己原来可以产生很大影响。如果决策方式不对,就会扼杀了他们的志气。


大部分考虑长远的企业都标榜自己制定的决策能够达成共识,但他们不理解什么是“共识”。


并不是每个人都同意就能称之为“共识”,“共识”意味着每个人都能发声,每个人的意见都能被听到,最终大家团结地站在最好的决策那一边。


交流和制定决策同样重要。和决策一样,大多数领导者都认为自己很擅长交流,当然,他们大多数都错了。


尽量让交流保持开放。让信息流动得更快一些,信息的声量更大一些,让更多人能参与进去。


正确做好这些事,然后你的事业就有机会涅槃,获得巨大变革。


但是请记住,作为 CEO,你还必须是个 CIO(首席创新官)。创新不能被拥有或任命,它需要被允许。命令创意人员让他们进行创新,这不一定有效,正确的方式是放任他们去做。

设定一个实现起来很困难的目标,然后漂亮地失败。


听那些在一线实践的人的话,不要听那些空谈。让他们做产品的原型,而不是空泛的 PPT。


任何地方都能诞生想法。


以上步骤并不仅适用于企业家,也不仅对高科技事业有效。机会到处都是,创意人员到处都是。心怀抱负,想要建立创意团队来争取机会的人也到处都是。


你所需要的只是一个大胆的想法。


扪心自问,哪些想法本应该在五年内实现?


试着去想象那些不可思议的事物,因为它们其实很有可能发生。


然后,在你想象的那个未来上做赌注。大赌注有时候比小赌注更容易实现。


因为它们可以吸引到最优秀的人


你准备好了吗?


 


回复关键字“转载”获取转载须知



欢迎关注公众号

或添加微信小助手与IIR互动____________________




GE金融版图兴衰史(案例分析)





杰克韦尔奇:大公司管理精华





拼多多黄峥门外的GP




点“在看”或加“星标”才能持续看见我






____________________


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存