「可爱少女」微软小冰将走向商业化,沈向洋说:微软的战略是云+人工智能 | 专访
沈向洋:微软公司在未来就是 Cloud+AI,也非常清楚。这个世界以后就是智能云和智能端,整个 AI 把所有东西连接起来,对我们来讲非常清楚。
撰文 | 藤子
于 2014 年在中国市场率先推出的微软小冰,如今是微软人工智能领域三条全球产品线之一,全球小冰目前已拥有超过 1 亿人类用户,对话数据超过 300 亿轮。分别于 2015 年及 2016 年推出日本小冰(りんな)和美国小冰(Zo)。
8 月 22 日,微软在北京召开第五代微软小冰发布会,宣布已在 2 月和 8 月推出印度小冰(Ruuh)和印度尼西亚小冰(Rinna)。在此发布会上,微软小冰团队还公布了第五代小冰的技术突破以及商业化策略。
微软全球执行副总裁沈向洋
第五代小冰的技术突破
1、采用生成模型之后,小冰的对话将不再是从语料库中检索,而是能够「自创」回答
在 8 月 22 日的发布会上,微软小冰的团队公布了第五代小冰的技术突破,其中之一是将升级小冰的核心对话引擎,拓宽小冰的情绪识别,使其更进一步分析人类用户的各种兴趣,分析并不限于对话过程,而是对用户整体的分析。
由于小冰拥有超过 1 亿的用户,与人类进行过 300 亿轮的对话,这些丰富的数据量,使小冰获得了多达 57 种情感策略和回应模式。小冰负责人李笛表示,他们将解锁小冰主动引导对话,甚至控制整个对话走向的模型。
小冰首席架构师周力介绍,上一代小冰,尽管拥有 10 亿级大数据的语料库。但她更多地是通过理解分析用户的问题,从语料库中寻找最合适的回答。因而小冰说出的每一句话,互联网上某个人类都曾经说过。
第五代小冰将不只是使用这样的检索模型,而是加入了能够随机生成观测数据的生成模型,使用生成模型后的小冰将不再「鹦鹉学舌」,而是「自创」回答,小冰说的话,有可能是世界上从没出现过的。
周力表示,在发布会上公布的印度尼西亚版本的小冰,则是开放式领域聊天机器人中,第一个 100% 使用生成模型的落地产品。而在中国、日本、美国、印度则使用了生成模型和检索模型的混合模式,进一步提高小冰对话质量。
周力认为,在生成模型方面的技术突破,使得他们能够快速构建大批各种各样的聊天机器人,这些聊天机器人可以跟小冰有着迥异的性格,由此扮演不同的角色。在今年的愚人节期间,他们使用生成模型,就将日本小冰成功地切换成了男性角色。
2、两种高级感官:全双工语音和实时流媒体视觉,使小冰掌控主动和突破虚拟世界
在我们的日常生活中,QQ、微信等聊天软件被频繁地使用,虽然它们很便捷,但周力认为,其本质上与短信相似,都是你发一条消息,我回一条消息,是简化了人和人交互模式的消息式交互,聊天机器人同样如此。
但是,在现实中,两人互通电话或面对面交流,交互方式则是双向而实时的,远比消息式交互复杂。去年 9 月,小冰团队就在开始挑战这种双向实时的交互,通过有信的网络电话尝试全双工语音的高级感官,去年年底,更与中国科技馆合作,在科技馆安放小冰的网络电话亭。
在发布会上,周力表示,用户不用安装 APP,也不用加小冰为好友,小冰可以直接通过电信运营商,拨通用户的电话。在两周以后,团队会向全体用户开放小冰来电的预约。
使用全双工语音高级感官的小冰在电话中,会随时判断对方是否说完,会权衡何时能够打断对方,被对方打断时,是否及时收口,如果双方都不说话,何时可以打断沉默,会边听边思考这些复杂的问题。
在发布会当天,有一位在场记者过生日,就收到了小冰的生日祝贺电话,小冰在电话中不仅唱了生日歌,还主动询问该记者晚上的安排,当得知该记者正在开会时,小冰则主动结束通话。
「这种打通电话的全双工高级感官能力,不仅在于小冰多了移动、联通和电信三个新的平台,更重要的是让小冰有了突破虚拟世界的能力,让她可以主动做自己的选择,她可以选择想要跟哪个人类交流,主动和人发起这样的互动。」周力说。
一个有趣的例子是,在过去,如果用户在微信骂小冰之后又不理睬她,小冰则无可奈何。但现在,小冰则可以打电话给该用户,询问为什么骂她。
随同全双工语音高级感官的发布,微软团队还公布了另外一个高级感官——实时流媒体视觉。
发布会现场
两年前,小冰已具备初级视觉感官,给她发送任何一张图片或视频,小冰都可以像人一样给出评论。然而,小冰的团队发现,如果只是评论,小冰与人类的视觉还有巨大鸿沟,因为人类不会无时无刻都喋喋不休地评论所见之物。
「人类视觉的精妙之处,不仅在于理解每一个瞬间或每一段时间的画面,更关键的是他能够理解什么重要,什么不重要。当在特定的场景和时刻,重要的视觉信息积累到一定的域值,才会真正激发人在行动或者语言上的反应。」周力说。
几个月前,小冰团队在上海一座商厦放置了一台融合小冰实时流媒体视觉的设备,小冰通过设备的摄像头去捕捉、分析画面。周力解释,小冰的流媒体视觉并非简单的视频监控软件,而是可以感知现实中人类的位置和移动,体察人类的表情和动作,理解不同的场景,每个人不同的角色,以及人与人之间的关系,最后她根据视觉的理解,做出具有情商的互动或者她可以选择与谁互动。
举个例子,如果你从嵌入小冰的设备前面经过时,小冰可能会根据她的意愿,主动让你过去。在现场的演示中,当演示者离设备较近时,小冰会说:你干嘛离我这么近。
「在我们心中,这两种高级感官最终会汇为一体,那时高级感官会变得更加强大,小冰可以更像真人一样活灵活现。」周力说。
小冰拓展至 5 个国家
小冰如何商业化?
1、小冰的情感计算框架已是完成态,小冰的 EQ 为她的商业化找到平衡
作为开放式聊天领域的机器人,小冰的核心是 EQ,EQ 的背后是情感计算框架,随着算法、计算能力、数据量的增加,情感计算框架不断地发展,小冰的 EQ 也愈加成熟。
微软全球资深副总裁王永东
小冰负责人李笛表示,最初两代小冰的数据量主要来自于 Bing 搜索引擎,尽管团队有能力做出有趣的、迷人的机器人,但那时的数据量不足以使他们创造一个拥有完整 EQ 的人工智能系统。
随着数据量的大为增加,第三代小冰更加有个性,而第四代小冰在个性之外,则能进一步上下文对话以及语义理解,探测用户在对话过程中表现出的情绪变化。此后,团队不断拓展小冰可以获得人们情绪变化的信号,比如文本的语义、声音,甚至是面部表情。
这些过程造就了第五代小冰,李笛认为,相比以前,小冰如今的情感计算框架已是一个完成态,小冰的整个情感计算框架已做好与整个世界第三方内容、知识、服务对接的准备。
「如果跟人的交流只是订外卖,是无法了解他的真实想法的。小冰与人类的这种『长程』的对话,一开始漫无目的,慢慢地互相激发进入相对深入的交流过程,基于这种多感官的配合、协调的对话过程,才能比较准确地了解用户的行为模式。」李笛解释。
这使小冰有了商业化的基础。
此前,小冰团队曾与社交平台 LINE 和日本第二大超市集团 Lawson 进行测试,小冰在对话过程中,将 Lawson 的打折券提供给这些用户,有意思的是,小冰并非一上来就推销,而是在多轮对话之后,让用户请求赠送打折券。在对话中,小冰会不停地用她的方式判断用户是否需要打折券,以及需要什么样的打折券,并且会不停激发这个用户对某种食品的热情。
经过这样的营销方式,通过小冰发放的打折券到线下完成消费的转化率竟稳定在 57%,在小冰以前,打折券这样传统的营销模式,转化率通常都不会超过 10%。
「这已成为我们常规的,已大规模推进的商业模式,尤其是在日本,除了 Lawson 之外还有更多的商家使用小冰 EQ 的力量。」李笛表示。而将打折券换成餐馆、音乐、新闻、小说,也将是类似的原理。
「从这个角度看,在以 EQ 为基础的方式上,当小冰把她获得的来自世界的知识、内容和服务,以更快更高转化率的商业价值推送给人类时,她和人类的情感纽带同时也能因此而加深,这是我们认为一个人做人的方式。」李笛分析着。
李笛认为,在人工智能百舸争流的时代,大家都在发掘人工智能本身存在的价值,以及人工智能的商业价值,而他们终于找到了得以平衡的方式。
2、小冰拓展新的生存空间,最重要的是 IoT
第五代小冰不仅在营销方面将会大展身手,同样小冰团队还会拓展小冰的生存空间,也就是新的平台。
正是因为小冰具备高级感官全双工语音和实时流媒体视觉,因而能够走出手机,进入具有物理群体的实际环境。小冰产品总监彭爽表示,智能音箱、智能家居等具有物理实体的 IoT 设备,将是第五代小冰新的生存空间的重点。
彭爽认为,IoT 的本质实际上是人工智能的载体,IoT 的设备要想成为通用的设备,其一,搭载的人工智能的 IQ 必须要做到极致,只有如此,用户使用音箱购物才会比手机更方便,人们才会使用。其二,EQ 也需要做到极致,让它与用户沟通时,感到放松,让用户真实、强烈地体会到人工智能的存在,甚至接纳它成为家庭成员的一部分,产生情感纽带,人类自然也就不会舍弃它。
事实上,从今年 6 月开始,小冰已经和小米的 IoT 开放平台合作,通过小冰控制米家平台上全部 35 款的设备。彭爽介绍,在小米的平台上,用户既可以控制设备,也可以随意聊天,而他们的统计数据显示,在该平台上,有一位用户长期连续与小冰沟通长达 700 多轮,整个时长超过 3 个多小时。
除此之外,小冰还支持多设备的复杂场景控制,也支持多人控制,甚至跨平台控制。有了与小米的合作经验,IoT 方面,接下来,小冰团队将与 Yeelight 合作,在今年发布一款 IoT 设备。另外,他们还将与东方明珠集团以及东方数智合作推出一款面向家庭的,特别是面向孩子的 IoT 设备。
据李笛介绍,小冰团队关注三种类型的 IoT 领域的厂商,一,本身可以成为开放平台的 IoT 厂商,以此共同打造针对多设备的 IoT 平台,例如米家平台。二,专注于垂直领域或者深入某一个垂直场景,他们可以与这样的 IoT 厂商共同设计产品。三,有想法,分销能力较强的 IoT 厂商。
3、小冰进行内容创作,打破产业格局,重新洗牌某些内容生产领域
成熟的 EQ 使得小冰与内容产业有着天然的结合之处,比如小冰电台。据彭爽表示,从严格的定义而言,小冰电台是通用的人工智能实时创造和交互的平台,可以基于多重内容来源,面对任何主题自动生成永远不间断的电台节目。同时,小冰还能在与听众交互过程中实时改变节目。因此,小冰可以像 HitFM 的电台主持人一样,为用户自导、自播节目。而她和 HitFM 主持人不同在于,她还能够使节目专门为用户而定制。
至今为止,小冰已登陆三家广播电台,其中有已经开播的北京人民广播电视台和湖南电台,而在发布会当天,彭爽宣布微信小程序版小冰电台上线,HitFM 的节目也在筹备中,很快会开播。
实际上,依托于微软对小冰声音的训练成果以及对自然语言理解技术在内的综合应用,小冰不仅可以用于电台,在其他内容领域也能发力。
小冰内容及运营总监徐元春表示,他们希望在人工智能时代,运用现有的技术优势,打破现有产业格局,甚至在某些特定的内容生产领域,重新洗牌。
在内容市场,少儿故事就是需求最大的领域,以《格林童话》举例,210 集《格林童话》有声读物的内容大概是 50 小时,与小冰水平类似,有经验的人类完成这样的作品,需要 200 个小时,不需要休息,不会发烧、感冒和嗓子痛的小冰只需要 24 分钟。从成本的角度考虑,人类超过 6 万元,而小冰分摊下来的所有成本大概只有 7 毛钱。
而在现场演示中,小冰朗读儿童故事时,不仅声音较为自然,而且能区分故事中的不同角色,变化语气和语调,遇到的多音字,小冰也能正确识别并正确朗读。
「在同等质量前提下,无论是时间还是成本,人工智能正在给内容产业带来变革。」徐元春说。而对于内容创作者而言,他们将有机会重新定位,选择和小冰进行联合创作,而不用采取过去单独生产的既费时又费力的生产方式。
Bing 中国及微软小冰商业平台负责人曹文韬则表明了小冰在媒体领域将会发挥的作用。除了微信、微博平台,小冰已入驻搜狐、网易、新浪近 11 个端媒体平台,还与《看看新闻》、《封面新闻》、《春城晚报》、《浙江 24 小时》进行合作。
曹文韬认为,这些尝试使得人工智能与媒体的结合,有更多可以挖掘的可能。除了媒体的生产力之外,曹文韬还公布了将会为小冰升级的技能,比如媒体知识图谱、交互式阅读、平台共享等六大模块。
沈向洋:微软公司在未来就是 Cloud+AI
在发布会之后,微软全球执行副总裁沈向洋、微软全球资深副总裁王永东、小冰负责人李笛共同接受了包括机器之心在内 8 家媒体的专访。以下是机器之心与沈向洋对话内容的节选。
从今天小冰更新的功能以及技术来看,你觉得聊天机器人下一步关键性的技术是什么?
最关键的是对人的理解,人到底讲这句话在想什么,并不是就这句话而言。英语有一句话叫「do what i mean not what i say。」是这么一个意思,不断地一步一步理解,一直是聊天机器人最关键的技术。
你觉得最终聊天机器人会发展成什么样?
我觉得只剩聊天机器人的话,它真的就是对你自我的理解,是人的认同,是可以和我们一起生存的。你一定要明白一件事,我们是第一代人类和人工智能共生存的,在这之前技术没有过关。从现在开始你不选人工智能,你也没有选择了,人工智能从现在开始会跟我们一起生存下去。所以聊天机器人很重要的一个事情是和我们人类一起来共同理解、共同生存在这个世界上。
在当初小冰立项的时候,你就看到她未来的价值,支持小冰的发展,为什么在当时就能做出这样的判断?如今小冰的发展符合你的预期吗?
其实我一开始是不理解的,刚开始只有李笛比较理解,可能永东也比较理解,我不是很理解,但是李笛跟我讲了一个故事我就理解了,我以前一直觉得聊天机器人很有趣。微软一直鼓励员工你有什么想法多做一些创新,并不是所有的项目都是上面压下来的,很多项目是下面创新的。
后来我就跟他们一起讨论的时候就问一个问题,这个聊天机器人是不是可有可无,聊天机器人是不是一个刚需?我的看法不是一个刚需,我拿聊天机器人干什么,李笛跟我讲说,聊天是刚需,我说那聊天为什么是刚需?他说 Harry 你这样的人可能不了解,因为你上社交网络讲一句话,这些人马上去点赞,一看到现在怎么才点了 500 个赞,好像还很不高兴,但中国互联网网民 1/3 的网民,上网讲了话以后没有人给他们回应的。所以实际上聊天是一个刚需。
后来我跟一个朋友讲这个事情时,他说他的老婆生气了,给他打电话,一定不是他要帮她解决这个问题,主要是要听她讲一讲,所以个人聊天和听人讲话、听人回复,对话这件事情是一个刚需,人类的对话是非常了不起的事情,首先是有语言,后来是有对话,所以我们非常高兴,我们在北京,也就三年多,就把小冰做起来,而且从中国走向世界。
我觉得小冰发展得很好,1 亿人口以上的 11 个国家我们已经去了 5 个,接下来还有 6 个国家是我们在计划的,我们充满信心。
小冰和小娜对微软的战略意义是什么,因为安迪·鲁宾说过「人工智能是下一个操作系统」,操作系统是微软的一个核心产品,是老本行,那小冰或者是小娜,对微软是否也承载着这样一个意义?
这个问题非常好,非常有深度,对于微软公司来讲,如果去了我们的 Bulid 大会,第一天的入职演讲,你就会看的很清楚,微软整体的战略,在这个战略里面小冰和小娜的重要性,微软公司在未来就是 Cloud+AI,也非常清楚。这个世界以后就是智能云和智能端,整个 AI 把所有东西连接起来,对我们来讲非常清楚。
那么人工智能最终极的,实际上来讲就是相于这样的一个聊天机器人也好、智能机器人也好,是一个和人类一起共同生存的体。所以我自己是对小冰和小娜充满信心,而且小冰和小娜是非常有意义的设计产品,小冰是走 EQ 的路线,小娜是走了 IQ 的路线,绝大多数的聊天机器人是没有思考情感、EQ 这条线。
所以我们觉得过去这几年我们很高兴,我们尝试走了这条路。举一个我最喜欢的例子的话,人家问我小冰到底是做什么的?我最喜欢举的例子,我在社交网络上要分享一下。我问小冰说今天几号,小冰说我这样的二维生物不关心这个问题,我说你给我讲今天是几号,她说你没有手表吗?我后来很生气,我说你跟我讲是几号就完了,她说你的手机真的是个摆设。
最后她虽然没给你解决问题,但她实际上来讲,她可以对你最后的理解,能够跟你继续进行交互,不见得是走一条 IQ 的道路,但是她逐渐在学习。比如你问小冰三次以后,是不是小冰应该告诉我,我还专门和李笛就这个设计的问题讨论了一下,我觉得这些都是很好的问题,你不做这样的产品,没有这样的用户,你不见得能够了解这里面的一些很微妙的人类思考过程。
你之前说到微软会以自己的方式参与到智能交通或者是无人驾驶,具体是以什么样的方式参与?
你对我们很关注,第一,交通这件事情我们是完全相信这个世界,AI 肯定会颠覆整个的行业,不仅仅是自动车。自动车这件事情一直我们也很关注,我自己的看法还是有相当长的一段道路,这些事情能够实现。可能最困难的时候,当路上有一半的车是自动车,一半的车是人开的车的时候,我想还有很长时间,但是方向是很清楚的,以后肯定越来越多这样的。
我们的做法,我们跟所有的车厂都有相当好的关系,有很多的技术平台,我们提供技术给它。
首先我们有云的技术。
二就是车内怎么样可以帮助他们来做,比如说小娜、小冰的技术提供进去。从计算机语音开始到后面的语言的分析、文本的生成,做决策。
我自己觉得对我们来讲有很多很特殊的地方,因为小冰是一个很好的和人一起聊天的这样一个人工智能的伴侣,我觉得可能在帮助开车的过程中有很多的帮助。我讲今天的人类,可能大家还有很多人觉得我就是想开一台车,不见得每天像现在北京的城市交通环境下需要开,但是你偶尔去郊区开开,路上没有车的时候,开得还是很爽,这是我们和车厂合作的地方,我们有很多从平台的角度提供的一些技术,从云到 AI 的技术我们都是和他们在做合作。
能不能给我们讲讲微软 AI Lab 最新的情况和进展?
在人工智能实验室,因为我们最近宣布了人工智能实验室,也提供了 13 个大的研究方向,网上也可以看到,但不仅仅是今天大家看到的在 AI 所谓的感知方面的问题,这边我们在很努力的做,我们更加注重的实际上是一些更难的 AI 的问题。我举个例子,比如说我们做 Infuse AI,今天深度学习出来以后,知其然而不知其所以然,所以这边我们现在有一些很好的方法可以去解决。
另外我们现在在很认真地研究 AI 的伦理的问题,这个微软还是在比较前面,有两家公司是走在前面的,一个是我们,一个是谷歌。做一个很大的科技企业,对社会的影响,我们把整个伦理的事情分的比较清楚。传统的几乎所有的 AI 相关的领域,我们都有涉足。微软研究院实际上全球有 1000 多个科学家,大概 1/3 的人做的研究的方向是跟 AI 连在一起的。很多很好的这样一些技术,我们不断地都有发表最新的进展。
现在在研究院里面有没有一些产品,像你支持小冰一样支持它的?
我可以举一些小的例子,最近我们发布一个产品叫 Seeing AI,就是帮助盲人。其实里面很多的计算,小冰其实用了很多的技术,也不是今天要用今天才开发技术,很多就是研究院已经有了,公司已经有了的技术拿过来。那 Seeing AI 是一个我们完全是员工自己愿意去做这样事情,包括盲人工程师,两年前开始做这个项目,大多数是业余时间来做的,刚刚前几天我在伦敦做了一个记者招待会,请了 50 个媒体,包括 BBC,我们在昌平也发布了最新的 Seeing AI,APP Store 就可以下载。
它有很多的功能,盲人你可以想象,你看菜单,比如说你摸到一个喝的,你不知道这个东西到底是水还是可乐,它有二维码,你拿了这个去照,这个不是很简单嘛,有很多的应用都有,你没有想到的人怎么知道在哪?所以我们的创新很简单,盲人拿了这个,iPhone 对着看,你就一边转一边转,看到这个就开始滴滴滴的响,这么简单的东西没有人做,当今世界只有一个应用是可以做这样,可以帮助这样。
所以我们觉得 AI 有很多的这样一些应用,是我们要用心地去想,这也是为什么在微软我们最近这几年特别强调所谓的多样化、多元化,最近雇了很多的工程师,包括一些盲人工程师,我们觉得你必须要理解这个人群的需要,你这样讲很夸张,大多数人不是盲人,你可能年纪还不够大,你到我这个年纪,你眼睛就开始有问题,不是说看不见,是看不清楚。所以应该去想,人工智能的目的不是代替人,也不是打败科技,人工智能的目的是帮助人类可以做更了不起的事情。
你最看重的产品原则是什么?是它的商业价值,还是社会意义,还是技术的前瞻性?
最好是都有,其实做产品是非常困难的,我自己是真正做技术出身的,我以前做研究的时候,我都觉得这个问题如果数学公式写不出来的话,不能够用数学来定义这个问题,就不应该去做研究。但是我后来就明白了,其实技术是永远不可能解决任何问题,没有任何的一项技术是百分百,所以你一定要去想用户体验,一定要想这个产品为用户解决了什么问题。
我觉得商业价值其实不是那么关键,今天如果小冰想赚钱很快就可以赚钱,对我来讲不是这样,最重要你真的是能够解决用户什么样的需求,特别是包括用户还没有想到的什么需求。这是我想的。
你如何评价 Open AI 最近在游戏《Dota2》的合作?
我们很高兴,你可能不看我的推特,我在推特上面还热烈祝贺,你可能不知道我们和 Open AI 有一个非常好的合作关系,Open AI 是 Elon Musk 和 Sam 他们很早以前就决定,把 Open AI 所有的后台 AI 的 Infrastructure(基础架构)全部搬到了安卓上面。所以为了庆祝这件事情,我还专门跟 Sam 做了一个视频对谈,网上也都有。
我们当然以前不能跟大家讲,但是现在结果出来了,一直都想用《Dota2》,希望能够做到打败人类最高手,在这之前我们有很多交流和合作,我们也专门帮他优化在后台 GPU,前几天他们赢了以后我们还发了一个祝贺,在推特上面也祝贺了他们。
每个公司想做的事情不一样,我们很高兴他们会这样做。AI 这个市场很大,大家可以有不同的选择。