从研究到产品,不惑之年的微软如何从谷底重回巅峰?
The following article comes from 快公司FastCompany Author Harry McCracken
纵观如今的科技界,微软是当之无愧的技术领袖。若想探寻微软对人工智能(AI)的兴趣起源,我们不得不追溯到一段颇为久远的历史,远到亚马逊、Facebook和谷歌还尚未涉足商界,更别提成为AI巨头了。
1991年,比尔·盖茨(Bill Gates)创建了微软的研究部门,AI从一开始就是研究领域之一。三年后,时任微软销售总监的鲍尔默(Steve Ballmer)在西雅图举办的全国人工智能大会(National Conference on Artificial Intelligence)上发表演讲,强调了微软对AI技术的信心。有趣的是,活动当天,鲍尔默撞坏了自己的车,他“灵机一动”提及了一个有关AI技术潜力的形象说法——希望有朝一日,软件将智能到足以控制汽车。
鲍尔默的话在二十多年后的今天逐步逼近现实,从中也不难看出微软研究院的高瞻远瞩。但令人费解的是,打一开始就聘用了多位计算机领域最富远见、成就最高的科学家的微软研究院(简称MSR)却在很长的一段时间内并没有拿得出手的创新转化。一个显而易见的例子是,打上世纪90年代开始,微软就已经陆续在语音识别等研究领域取得了不菲的成绩,但以上创新却迟迟没有对其王牌产品Windows和Office产生深远影响。
2014年,由微软(亚洲)工程院研发的人工智能助理小冰
一切的疑惑和耻辱在其CEO萨蒂亚·纳德拉(Satya Nadella)上任五年之后一去不复返。这种改变无疑极大得益于纳德拉的个人决心。(快公司曾在2017年11月刊,报道过纳德拉的专题,看他如何引导微软重启。)拿负责微软人工智能与研究的微软全球执行副总裁沈向洋(Harry Shum)的话说:“从正面的角度讲,萨蒂亚迫不及待地想要在产品中加入更多的技术。这对微软研究院的所有人来说都是莫大的鼓励。”这群倍受鼓舞的人涵盖了遍布微软全球的——共计1000多名,分散在微软总部雷德蒙德以及波士顿、蒙特利尔、北京、班加罗尔等世界各地的——研究院计算机科学家。
但对于体量如此之大的微软而言,“CEO的决心”所发挥的作用毕竟是有限的。让微软事半功倍的秘方是在复杂的后勤工作上的轻车熟路,比如确定了哪些产品应该利用哪些研究之后,还要鼓励两地相隔的员工在这方面进行合作,最终得保证结果的呈现,从普通员工到游戏爱好者都是此创新的见证者。
沈向洋认为,过去外界批评微软“没有充分将研究人员的突破性成果进行商业转化”实则是一种偏见。但他也不否认在所谓的“部署驱动型研究”方面,微软确实比过去做的更好了。他说:“现在的关键是我们能够以多快的速度实现这一切。”
沈向洋
为了更全面地了解微软近年来的AI布局,笔者最近走访了一次微软园区,采访了沈向洋和公司其他部门的几位同事,探讨了“尽可能快速广泛吸纳AI技术”的话题。事实证明,这并非一个单一过程,而是一系列的复杂过程的集合体。
壹 Office:善用会议
确保微软的AI创新能够造福微软客户,本质上就是确保研发团队和产品团队不会彼此孤立。这意味着,企业必须鼓励团队之间的交流,而微软目前正以一种有规模、有组织的方式促进这种交流。例如,每隔六个月左右,他们就会组织一场名为Roc的活动,推动研究工作与办公产品开发之间的跨领域交流。
沈向洋说:“我们举办为期两三天的研讨会,邀请来自微软研究院的50个人和来自Office团队的100个人,大家聚在一起。”每个人分享自己手头上的项目,最后以黑客马拉松活动作为收尾。
另一场交流活动就是杰出工程领导力系列讲座(Distinguished Engineering Leadership Lecture Series),将负责产品的高管们带到位于微软园区的99号楼的微软研究院总部。“我说,‘你们来到这儿,必须为我做三件事。’”沈向洋说道。“首先,阐述你们的产品路线图。第二,列出你们需要微软研究院为你们解决的10个问题。第三点就是在你们离开这栋楼之前,承诺与我们合作开展一两个项目。”
当然,让大家谈论问题和解决方案只是一个开始。以AI技术改善微软Office日常任务(如格式化文档或将数据插入电子表格)的潜力是巨大的。但显然,自动化辅助有时对用户非但没有帮助,还可能造成干扰。Office 97的虚拟助手Clippy就是最好的例子,它至今仍然是惹人反感、不受待见的典型技术代表。
“你好像在写信,需要帮助吗?”Clippy这句亲切的“开场白”也是用户最为反感的功能之一,毕竟谁也不想被计算机“奸视”
在根除Clippy十多年后,Office仍然想让AI为你正在执行的任务做点什么。只是这次它希望这种体验是微妙的,不带干扰性的。正如Office首席产品规划经理罗内特•劳伦斯(Ronette Lawrence)所说,“我们的核心原则之一是确保人类永远是主角。”
据劳伦斯透露,微软目前为Office增加的几乎所有功能都包含了人工智能和机器学习的元素。以PowerPoint为例,该公司希望AI成为“在云端为你服务的设计师”。如果你使用的是配备了手写笔的电脑(比如微软的Surface系列)PowerPoint还能把你潦草的手写文字和手绘形状转换成精美的文本。如果软件注意到你正在输入一系列日期,它也会提议把它们排列成时间轴。
然而,劳伦斯说,他们不会把未经请求的建议强加于你,“而是小心翼翼,轻声表达。”PowerPoint的Design Ideas功能可以分析你手头上的演示文档,并在幻灯片右侧以缩略图的形式显示可能进行的调整,比如日期序列的时间轴布局。执行简便,也不碍眼。
例如已经在PowerPoint上线的Design Ideas功能,用户可以利用AI技术装饰幻灯片,但如果你不需要它,它也会小心低调,绝不挡你的路
许多Office功能依赖于微软研究院的最新研究成果,某些“奇思妙想”更容易走出实验室。谈到demo版本的AI,劳伦斯说,“有些感觉就像科幻小说的素材,有些则感觉更接近于真实的产品。”
在Office产品团队和MSR的某次研讨会上,有人提到一个现象:用户通常先草拟Word文档,再填补空白处,或者交给同事填充。(但在实际操作中,我们很容易漏掉一些内容。)为啥不能让Word文档来辅助这个过程呢?
于是,微软推出了一项新的“待办事项功能”,通过扫描文档查找诸如“TODO:获取最新收入数据”或“在此处插入图表”这样的占位符,并将其列在侧边栏中,就能提醒你记得处理未办事宜。微软计划扩展这一功能,方便同事通过回复邮件提供你所需要的元素,而不是在你的文档里翻找。它还打算利用AI建议相关内容。
首批获取上述待办事项功能的Office用户是Windows和Mac的用户,他们已经注册了Office的试用项目。(它将于今年年底正式发布。)
但在Office的常规操作中,新的AI功能通常最先出现在web端的Office版本中,其好处显而易见——迅速面向大量用户,快速学习并改进,无需等待传统形式的Office新版本发布。
“对我们来说,倾听反馈,了解人们如何利用反馈训练模型,这是非常重要的。”劳伦斯说道。“这是微软新时代的一部分,当你发布新功能时,我们的关注重点不再只是功能的可用性。网络给了我们反馈机制。”
近期,微软发布的一组广告里,致力于展示Office 365服务拥有一系列别的版本所不具备的便捷功能(比如一次性付给版本Office 2019就没有类似功能)。所有这些功能都利用了AI技术,但广告中并未提及这一点。毕竟,人类才是主角。
贰 游戏:了解玩家
人工智能是什么时候开始对视频游戏业务产生影响的?问问微软PlayFab(该公司收购的云游戏开发初企)的总经理&合伙人凯文·甘米尔(Kevin Gammill),他会追溯到40年前,提到早期的电脑游戏商,比如雅达利(Atari)街机游戏Asteroids中的飞碟。他说:“我认为,AI存在的时间和游戏一样长。”
塔米尔·梅拉米德和凯文·甘姆米尔
2019年,AI在游戏中的潜在应用将远超人们的想象。微软在游戏和基础计算机研究领域都进行了大量投资,是少数有能力探索这些领域的企业之一。
这涵盖了一些实用的AI应用,既能够让玩家的生活更美好,又不过分刷存在感。例如,研究表明,玩家与其他技能大致相当的玩家进行匹配,对在线竞争大有好处。甘姆米尔解释说,“玩游戏如果被秒杀,那大概不是好的体验。如果对手都是‘弱鸡’,这种体验可能也不好。”Xbox Live长期使用一种名为TrueSkill(最近更新为TrueSkill 2)的算法,确保玩家不会感到无聊,也不会被对手“屠杀”。
另一个AI产品的灵感来源于这样一个事实:“多年来,微软游戏玩家清楚表明,他们愿意把更多时间花在玩游戏上,而不是下载游戏。”负责Game Pass服务的阿什利•麦基斯西克(Ashley McKissick)表示。该公司最初试图让玩家在下载完成之前跳过这一步骤,但这一系统需要游戏发行商承担大量繁重的工作,因此并未得到普遍采用。
去年夏天,微软推出一种名为FastStart的AI增强技术,取代了这种差强人意的手工操作。它利用机器学习决定首先下载游戏的哪个部分(下载足以使得游戏正常运行的重要部分,并在在玩游戏的过程中后台安装其余部分),允许玩家以快达两倍的速度进入游戏。“我们并没有真正改变物理定律,但下载过程确实变得更智能了。”麦基斯西克说道。
微软正逐渐将这种协作正式化,帮助人工智能进入游戏。他们发起了Magneto会议,与MSR/Office的Roc会议类似,旨在培养微软研究院与游戏团队之间的对话和直接的黑客活动。微软PlayFab工程部门负责人塔米尔·梅拉米德(Tamir Melamed)说:“除了这两大阵营之外,还有来自必应、Windows和Azure的用户。因为有很多技术我们未来都可以分享。”
其中一个联合项目发源于微软一年一度的全公司黑客马拉松活动。2017年,游戏团队正努力应对策划Mixer的挑战。这是一项流媒体游戏服务,与Twitch(一款电子游戏直播平台)处于同一领域,但更具互动性,微软通过收购初创公司Beam获取了这项直播服务。Mixer总经理查德·吉布森(Chad Gibson)说:“我们发现最终的流量比预想的要大得多。所以,我们试图摸索‘如何才能以独特的创新手段,让《绝地求生》(PlayerUnknown’s Battlegrounds)或《堡垒之夜》(Fortnite)的玩家被发现?’”
查德·吉布森和阿什利•麦基斯西克
大约在Mixer琢磨这个问题的同时,几位微软研究人员赢得了黑客马拉松比赛。他们设计了“Watch For”AI系统,可分析直播视频流并识别其中的特定事件。(微软十分欣赏这项技术的商业潜力,在宣布团队获胜时,甚至没有透露他们的作品究竟是什么。)两组人携手合作,把Watch For作为HypeZone的基础。HypeZone是Mixer其中一项功能,可让观众在游戏直播过程中收看最精彩的瞬间。吉布森表示,“它带来了全新的发现形式,我们还真没想到这些形式是可行的。”
只要游戏存在挫折,人工智能就应该提供更多方法,减轻这些挫折。最近,甘米尔在汤姆·克兰西(Tom Clancy)的第一人称射击游戏《彩虹六号:围攻》(Rainbow Six Siege)中,与三名好友展开了激烈的竞争。其中一名玩家的网络连接突然中断。甘米尔说:“我们三个人跑来跑去,另一个角色定住了,站在原地一动不动。”而定住的角色什么也做不了,只能被残杀。
我们可以设想一个更好的场景,那就是利用AI确定玩家的连接是否被切断,然后临时控制相应的角色,并以该角色的风格继续游戏。甘米尔说:“现在,我们距离真正实现这样的场景已经非常接近了。”
叁 硅“元素”:化整为零
史蒂芬·乔布斯常说,苹果是唯一一家开发了“整套装置”的公司,不单单是软件或硬件,而是两者的完美整合,以至于用户体验的缝隙开始消失。近年来,随着苹果设计了自己的iPhone和iPad处理器,并对其进行优化,以运行苹果的软件,这一理念得到了终极体现。
这种垂直整合对智能手机或平板电脑来说是一件好事,但放在数据中心(比如微软Azure服务背后的数据中心)里,恐怕未见得适用(或者说,需要整合更多)。于是乎,Project Brainwave便登场了。这是微软利用英特尔现场可编程门阵列(简称FPGA)设计的定制硬件加速器,专为推动Azure云端人工智能的加速运行。
为优化人工智能而自主设计硬件并非微软独创。出于类似的原因,谷歌和亚马逊也在从软件向硅(硬件)转移。但微软并不是随波逐流。将近十年前,道格·伯格(Doug Burger)开始思考一个机会,Project Brainwave就是他最终的思想结晶。当时,伯格是微软研究院的一名研究员。起初,他独力承担这个项目。据他回忆,“我在2010年开始这项工作,大概一年后,我把它交给了管理层。”
Project Brainwave源于微软意识到,采用AI技术需要从芯片层面开始
传统芯片离厂时能够执行其指令库中的计算指令,且永远无法针对其他用途进行重新培训,比如高效运行一套新的机器学习算法。相比之下,伯格说,FPGA就像变色龙。他解释道:“FPGA允许我们快速构建内容并将其投入生产,然后以非常快的节奏进行迭代。就像变色龙能够快速变换颜色,而且每次变色都在进步。”
FPGA技术允许微软提供高效的深度学习服务,满足特定的客户需求。Azure机器学习高级项目经理泰德·维伊(Ted Way)指出,“他们希望解决的很多问题都与图像分析有关。‘我想了解我在制造方面的缺陷。’‘我想查查产品是否缺货。’‘我想看看是否有人在我的加油站抽烟,我担心发生火灾。’道格的团队扭转了这一局面,只用了大约6个月的时间,就在FPGA上构建了这些卷积神经网络,运行速度非常快。”按照硅的标准衡量,这的确很快。
2010年,当伯格开始针对FPGA开展个人调查时,人们还不清楚AI能以多快的速度走向主流,更料想不到像微软这样的公司会把提供AI服务来作为一项战略要务。毕竟,并非人人都是具有先见之明的计算机科学家。很快,微软就了解到伯格的创意能为Azure带来怎样的价值。去年7月,Project Brainwave走出了实验室,伯格及其团队也离开了MSR。今天,他们作为Azure团队的一份子,继续研究工作。
微软技术研究员道格·伯格手持Azure数据中心使用的经过人工智能优化的Project Brainwave加速器
这种过渡并不少见。伯格表示,“今天的微软文化有一个特点,那就是研究和产品之间的界限已经模糊了许多。产品团队中有很多人曾经是研究员,现在正在开发新产品。研究团队里不仅有做研究的人,也有制造产品的工程师。它更像是一个统一连续体。”接着,他又补充说,纳德拉“在推动这类创新方面做得很好。”
肆 智能自助:由己及彼,乃至更多
通过Azure,微软正在与亚马逊和谷歌展开竞争,为各种类型的企业提供按需服务,包括人工智能和其他高级计算功能。这不仅对外部公司有利,微软内部也有一些团队能够从预先打包的AI和机器学习中获益。
Codie就是一个很好的例子。它是一个多语言聊天机器人,其用途是提供有关编程的信息。但目前还只是一款试验型产品,未能商业化。它的诞生源于微软工程师意识到:对于想要成为软件工程师的人来说,主要障碍之一就是如何获取Python编程语言中的指令和SQL数据库查询语法等事项的相关信息。尤其是对非英语母语的人而言,这个障碍会更大。
对于工程师们而言,Codie服务就相当于“微软小娜(Cortana)的极客妹妹”,Office 365和Microsoft 365的高级数据分析经理、是Codie的创始人之一马特·费舍尔(Matt Fisher)解释道。这项服务它诞生于Microsoft Garage项目,此项目鼓励员工追求自己热衷的想法,并为其提供所需资源,无论这些想法是否完全属于员工的正式职责。创建该服务的团队中有15名来自不同背景的员工,包括开发人员、设计师和营销人员。Codie击败了其他767个项目,赢得了微软的雷德蒙德科学博览会(Redmond Science Fair)比赛,并在该公司的包容性挑战中与5875份参赛作品角逐,最终斩获第二名。
阿夫琳·拉赫曼和马特·费舍尔
Codie从微软必应搜索引擎和用户对用户的技术咨询站点Stack Overflow获取信息,使用文本输入形式回答编程相关问题。“48小时内,我们开发出了这样一款产品,它跨越了五门不同的口头语言,从一个庞大的数据库提取信息。你可以用西班牙语问它一个编程问题,然后得到一个西班牙语的技术性解答。”阿夫琳·拉赫曼(Afreen Rahman)说道。拉赫曼的正职是软件工程师,负责Microsoft Store。
Codie的创始团队为企业带来了各种各样的技能,但他们一开始对人工智能了解得并不多。拉赫曼说:“我们使用了微软提供的AI套装中的现成工具。作为开发者,我们能够在短时间内找到文档并开始工作。”
费舍尔对于支持Codie的微软云产品烂熟于心:“我们使用了从Azure学习服务到LUIS语言理解等一切产品。QnA Maker、必应图谱、微软图谱、Azure机器人框架、Azure语音插件。”这里涉及了大量微软的AI专业知识,只不过都是现成的知识。对Codie和大家想要构建的其他许多项目来说,这些就够用了。
在把人工智能作为一项实现激励目标的技术方面,Codie已经取得了成功。它的创造者正在考虑升级(比如让用户直接说话,取代打字)和普及问题。费舍尔说:“我们的目标是看到它在微软的围墙之外得到运用。大家正在朝着需要做的方向努力。我们得到了Garage这个可爱团队的支持,但对很多人来说,这是我们的第二或第三份工作。”
创新方法论:现实问题,现实研究
关于微软研究和产品团队的交流新方法,还有一点值得关注,即受益的不仅仅是产品。对于训练机器学习算法所需的数据,人工智能有着无法满足的胃口。作为全球最大的科技公司之一,微软拥有以公吨为单位的匿名数据。这意味着,即使曾经有那么一段时间,微软在其研究成果和服务于人类的赚钱业务之间筑起了一道高墙,并从中受益,那这个时期也已经结束了。
“今时今日,要从事大量激动人心的AI研究,你需要接触真实的问题,你需要获取数据。”沈向洋说道。“此时,你得和产品团队相互配合。你建立一个新模型,训练这个新模型,然后调整你的新模型。现在,你的基础研究更进了一步。在这个过程中,你没准就能取得突破。”
文章来源:快公司FastCompany