查看原文
其他

亚马逊AI奇迹背后的女人,独家对话Alexa负责人Toni Reid

2017-04-03 DeepTech深科技

 


亚马逊Alexa无疑是全球范围内截至目前最为成功的AI消费级产品,也可谓亚马逊又一次的奇迹,甚至可以被称为亚马逊AI帝国的奠基性产品。


这是DT君关于本届EmTech Digital人工智能峰会的最后一篇专题推送,内容也依旧重磅:《麻省理工科技评论》出版人兼总编辑 Jason Pontin 对话亚马逊Alexa负责人 Toni Reid。

 

Toni Reid已在亚马逊工作了19年,2012年加入团队,并于 2014 年正式接管 Alexa 项目,经历了从 Alexa 从无到有的全过程。在与Jason的对话中,她从自己对语音交互界面的理解,到Alexa的立项过程。从技术路径设计,到开发过程中不为人知的小趣闻,为现场观众带来了一场令人印象深刻的对话。

 

关于火遍全球的语音助手Alexa的台前幕后,Toni Reid女士将为您呈现。


麻省理工科技评论出版人兼总编辑Jason Pontin对话亚马逊Alexa负责人Toni Reid

 

以下是DT君整理的对话现场全文:

 

Jason Pontin:关于AI的一个重要应用就是教会机器如何与人类更自然的互动。我想,亚马逊目前正在进行全球最大的自然交互界面实验,而其载体就是个人助理Alexa。

 

首先,我想问问在场观众有多少人家里有Alexa?

 

 

我想大概半数的人都举手了,不过这里是旧金山,科技狂人们应该不会错过Alexa。

 

好了,在正式开始探讨Alexa之前,能否先请Toni介绍一下自己的经历,以及是什么机缘巧合让你成为Alexa研发主要负责人?

 

Toni Reid:我在亚马逊已经工作 19 年了,这些年我从人力资源、商业拓展,到产品管理都做过。后来我加入了亚马逊Dash团队,与他们主要为 Amazon Fresh 生鲜销售服务提供技术支持。期间,我开始与亚马逊的语音研发团队密切合作。这大概是在 2012 年,Alexa 和 Echo 都还没有发布。

 

亚马逊Alexa项目负责人Toni Reid

 

在这一时期,我们语音团队所从事的是称之为Alexa和Echo最早的准预览版本。你知道在最开始,我甚至不理解Alexa有什么用,人们为什么会需要这么一个产品。

 

后来,我把原型机拿回去开始试用后,我开始理解团队的目标和远见了。尽管当时的原型机有一大堆bug,而且性能也远不及现在的产品,但我确实被Alexa和Echo深深的迷住了。所以,在2014年,我正式接管了Alexa团队。

 

Jason Pontin:对于那些没有使用过Alexa,或者任何语音助手的人来说,你们要如何说服他们购买这类产品?如何向他们解释语音技术所能解决的问题?

 

Toni Reid:当然,这不是件容易的事,我们的市场部门做过很多调研和演练。就像我当初拿到原型机一样,我也不知道它到底能做什么。但只有你真正把它带回家并开始使用后,你才能体验到技术让很多事情变的越来越容易。

 

现在Alexa已经逐渐成熟,学会了上千项技能,用户能很容易的理解其作用,为工作和生活带来的好处我们也不用多解释了。

 

 

Jason Pontin:你经历了Alexa从最初版本一直到现在,你认为,为何语音会在人机交互界面中扮演如此重要的角色?

 

Toni Reid:首先,语音是最简单、最自然的交互方式,也是人类沟通最基本的方式。所以,在为Alex设计硬件载体Echo的时候,我们并没有为其加上屏幕。这种做法其实是增加了难度:用户只能通过纯语音来使用设备,而并没有屏幕反馈作为辅助。

 

当你要使用语音来进行互动时,会用到某种互动引擎(Action Engine)。用户会提出需求并给出语音指令。我们第一步是要理解用户需要什么,比如通过自动语音识别(ASR),然后是自然语言理解,去弄清楚对话语境。

 

我认为,在用户下达语音指令后,我们只有一次机会去部署相应的行动,而不能去和用户来来回回的反复对话。一般而言只有两次对话机会,如果第三次对话还没弄清用户需求,就算彻底的失败了。这样的反复对话对用户来说是很糟糕的体验。


 

Jason Pontin:你认为语音是最人性化的交互方式,也是人类与其他物种最根本的区别之一。但反过来说,这就意味着,人类对语音交互会有很高的期待值。除了你提到的两次之内弄清需求外,你认为人类对语音交互还会有些什么期待?

 

Toni Reid:用户的期待其实都是很实际的。他们希望Alexa是可对话的、拥有各种功能、甚至是更接近人类,我们将来或许能做到。

 

但目前用户最大的期待,同时也是人机对话中存在的最大问题:语境。比如说,我和你现在面对面谈话,会有很多视觉线索告诉我你是否真的听懂我再说什么,或者是否赞同我的观点。


但在人机对话场景下这种视觉线索是缺失的。从AI角度来说,补齐缺失的语境,是目前的当务之急。

 

语境是人类对话的重要组成部分

 

Jason Pontin:我有一个很好玩的问题:Alexa到底有没有某种人格?因为大家知道,Siri是有自己非常古怪的性格的,比如调皮、自黑、讽刺等,相信苹果用户都多多少少有所体会。如果Alexa也有某种人格,是你们故意设计的么?

 

Toni Reid:没错,Alexa确实有,而且我们的团队负责赋予它这种人格。我们用三个词来定义Alexa的人格:聪明、谦逊、乐于助人,当然,或许还有一点冷幽默。你们可以跟它吵架试试,还蛮有趣的。从AI角度来说,将某项技术赋予一些人格是很重要的。

 

 

Jason Pontin:还是拿Siri作为例子,作为人工智能交互界面,人们拿着手机与Siri对话的场景明显与Alexa隔空对话是很不一样的,在Alexa的使用方式及语音反馈上你们有哪些考量?

 

Toni Reid:我们从未间断过用户数据的分析工作,作为一个只能语音设备,你必须决定反馈给用户的信息量。比如,询问天气,机器可以回答“68华氏度”,或者“现在旧金山室外温度为68华氏度”。


同时,需要回馈给用户多少信息也是我们在设计Alexa的过程中需要考虑的,有的人可能只需要最简单明了的回答,有些人可能更享受与机器对话的过程。回馈的信息量我们只能根据用户数据实时去做调节。


Jason Pontin:我们问问题其实有时候并不是要一个确切的答案。比如,问今晚 6 点的温度,可能我是想知道应该穿什么样的衣服。这类问题你们是否有考虑到?

 

Toni Reid:确实有考虑到。对这类问题的回答通常需要具备一定的预见性。只能手机在这方面是有优势的,比如在手机上语音查询天气后,屏幕上会显示穿衣指数等其他有用信息。

 

设计Alexa的过程中,我们的原则是让语音反馈尽量简明扼要,因为加入太多和用户问题不直接相关的信息,沟通效率就会降低。

 

 

Jason Pontin:Siri是拥有屏幕优势的,Alexa则没有这个功能,有没有什么办法能弥补这个差距?

 

Toni Reid:我觉得这得看使用场景。比如你要解释某个定义,只需要听到语音描述就够了。但你是要查询一张专辑,这时在屏幕上显示专辑封面就会变得很重要。


亚马逊也有这类产品,比如搭载了Alexa的Fire TV和Kindle平板电脑。亚马逊也正在积极向带屏设备拓展,并开始累计一些经验。

 

Jason Pontin :Alexa的用户数量已达到千万级别,这是一个极其庞大的训练数据库。那与 2 年前相比,你们从现在掌握的训练数据中发现了些什么新的东西?

 

Toni Reid:第一点是,通过这个庞大的 训练数据库,我们越来越清楚用户提问的方式,不管他们问的是关于天气、音乐、交通、购物等,Alexa对语音命令的理解越来越精准。

 

第二点更多是关于产品本身的。用户非常关心当Alexa被整合到其他类型的产品上、或被移植到其他国家和地区后的表现。比如,我们去年秋天在英国和德国发布Alexa的时候,当地用户其实已经非常清楚Alexa在美国本土能实现的功能,并对其报以极大期待。


但是,由于有些功能并没有完全做好本地适配,所以我们暂时没有发布,以充分管理用户的预期值。

 

2017年3月最新统计的Alexa在美、英、德三国所掌握的技能总数

  

Jason Pontin :目前,Alexa会几种语言?

 

Toni Reid:两种,英语和德语,英国英语我觉得或许能算第三种语言吧,哈哈!


Jason Pontin :我这英国口音算是改不了了……不过,我很难想象德国版Alexa说话的时候会是个什么效果(全场大笑)。好了,不开玩笑了。Alexa的下一个目标是什么?你们还希望Alexa具备哪些能力?

 

Toni Reid:我们希望,Alexa能具有更自然的对话功能,更像人类。我们会进一步增强它的能力,并赋予它更多的技能。

 

我们希望,Alexa不仅能在家使用,而是任何你要去的地方,而且尽量让用户忽略它的存在。

 

 

Jason Pontin :问个比较八卦的问题,你们见到的所有开发者为Alexa开发的技能中,最诡异的是什么?

 

Toni Reid:如何放屁……(全场爆笑)




MIT Technology Review 中国唯一版权合作方,任何机构及个人未经许可,不得擅自转载及翻译。

分享至朋友圈才是义举






一个魔性的科幻号,据说他们都关注了


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存