查看原文
其他

详解微软小冰商业化的根基与路径 | 独家专访

赵宇 深响 2021-03-07




水面下的巨大储备,才是微软小冰商业化的基础和关键所在。




©深响原创 · 作者|赵宇
 
 核 心 要 点 

▪  微软小冰团队认为,情感(EQ)才是智能语音助手最基础的部分;

▪  从技术层面讲,Avatar Framework 在结构和框架上的通用性占优;

▪  商业化步伐的加快,得益于目前微软小冰已经具有的通用性框架能力。



2010年,苹果公司花费2亿美金收购了第三方文字聊天服务应用Siri,随后通过与Nuance的合作使Siri具备语音识别功能,正式拉开了语音助手开发争夺战的序幕。

之后的战局就一发而不可收,亚马逊、谷歌、微软、百度等公司纷纷入局,开发自己的语音助手。一时间,出现了Alexa、Google Assistant、小冰、度秘等产品,智能音箱领域的激烈争夺也令市场持续火热。

但在这样的状况之下,微软小冰却显得有些与众不同。

小冰最初的身份被设定为一个16岁的少女,她没有知性、甜美的声线,说起话来有些呆萌甚至幼稚,与人沟通的时候也会偶尔“前言不搭后语”。更奇怪的是,不同于行业内都在做的任务和知识问答(IQ),小冰团队那时在关注着一个看起来比较虚的东西——情感(EQ)

微软(亚洲)互联网工程院副院长、小冰团队总负责人李笛近日在接受「深响」专访时解释道,“选择做EQ,并不是为了逗趣,而是我们认为它是智能语音助手最基础的部分”。

李笛称,在最初决定启动微软小冰项目的时候,他们就认真地采访了很多人类助理,得出的结论是:当把情感交流放在语音助手中时,它和人类之间信息量的交换会比纯粹想要去完成一个任务的信息量要大得多。EQ的加入,可以使助理和老板之间的关系上升为一种更有深度的、有情感纽带的关系。

于是,承受着外界的不理解,甚至小冰被称为“人工智障”的讥讽,微软小冰团队就这样继续进行小冰项目的研发,并在5年时间里不断迭代。今年8月,第七代微软小冰正式上线。

第七代微软小冰于8月15日正式发布

发布会上,微软小冰的种种成绩被一一介绍,而我们始终关心的是,小冰的这些成果能如何被应用到实际生活与商业社会中?小冰的商业化进展如何?未来的前景又在哪儿?


「技术成果」

在展开应用与商业化讨论之前,技术成果是必须铺垫的内容。

为了衡量EQ的高低,微软内部“发明”了CPS(人工智能和单个用户的平均对话轮次)这样一个指标,CPS的数值越高,说明语音助手与人类对话的能力越高。

最近两年,小冰的研发团队不断地给小冰添加任务、知识等其他有意义的东西,但CPS数值保持在了23轮。作为对比,一个普通的人工智能助理的CPS数值通常是1-1.5轮。

另外一组数据是,在第七代微软小冰发布会上,微软宣布:在全球多个国家,微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容观众。

这两组数放在一起,即是深度与广度。

第七代微软小冰设计的服饰
 
而微软小冰的官方定位是:既是跨平台的对话式人工智能聊天机器人,也是面向智能设备的智能助手,同时还是基于人工智能技术的内容创造者,以及一些垂直领域的解决方案提供者。

以国内为例,小冰与许多第三方平台展开了合作:

●  入驻网易、新浪等媒体平台,撰写新闻评论和相关文章;

●  与万得资讯、华尔街见闻等机构合作,生成金融文本和语音;

●  以主播的身份参与数十档电视、电台节目的录制和播出。

 
与此同时,小冰团队正式对外推出了Avatar Framework的第一个工具包版本。这个工具包与微软小冰框架同源,包含对话、声音、视觉、观点、技能、知识及创造力等工具,可以驱动兼容的3D人物模型进行实时交互。

通俗来说,小冰本来只是一个小冰,尽管不同用户的小冰各有特点,但源头不变。而Avatar Framework的出现让千千万万个小冰成为可能,这是一个与其他单一语音助手非常不同的点。

此前,微软就通过Avatar Framework框架赋能了软银Pepper等数十个第三方客户AI。

Avatar Framework的第一个工具包版本日前正式发布
 
「深响」了解到,与IBM开发的Watson等其他专家系统不同,Avatar Framework是一个通用框架,它能更好地兼容其他系统。

“任何一个专家系统都是纵向的,一个IQ Base一旦往下扎就意味着脱不开面,要想脱开面就不能追求往下扎”,李笛说,“小冰想追求通用,所以就不能在某一个领域扎得特别深,真正使它在结构和框架上胜出的,是它的通用性。”


「商业化的根基与路径」
 
事实上,从2014年5月开始,微软小冰保持着每年升级一代的速度。不久前最新推出的第七代微软小冰,则再次升级了包括核心对话引擎、全双工语音及多模态交互感官等多项核心技术。但从过去5年的经验来看,相比于其他公司的人工智能产品,微软小冰的商业化慢得有些不像话。

人工智能在各领域的商业化程度与技术应用深度
 
《2018中国人工智能商业落地研究报告》显示,围绕计算机视觉、智能语音技术、自然语言理解、数据挖掘等技术,出现了一批因人工智能算法而诞生的技术应用。从商业化程度看,安防、金融、互联网服务、企业服务等行业走在前列。

即使是单看智能音箱这一个细分领域,近几年的商业化也明显升温。亚马逊的Echo音箱在2015年6月正式面世,到2017年销量已经超过千万,同时在Echo上扮演类似Siri角色的Alexa渐成生态;国内方面,小米、百度、阿里此前在智能音箱上竞争激烈,其中某些厂商为了抢占用户未来获取信息的入口,对用户的补贴甚至达到了10亿人民币量级。

不难看出,整个行业在过去几年内的商业化落地,呈现出高速发展的态势。

但微软小冰却一度拒绝商业化。2017年8月,微软举办小冰第五代产品发布会时,小冰产品总监彭爽提到,“可能大家不知道的是,从两年前开始很多厂商都来找过我们,希望和小冰在IoT上有所整合,不仅在中国,包括日本也是。但是我们一直都保持克制,几乎全都婉言谢绝了。”

微软全球资深副总裁,微软(亚洲)互联网工程院院长王永东最近在接受媒体采访时也表示:“从产品发展的角度来讲,我们不愿意做杀鸡取卵的事情,不愿意为了短期的利益影响产品的健康发展。”

「深响」了解到,微软小冰的商业模式已经得到明确:既不会单纯的销售小冰技术的API,也不会生产第一方硬件产品,然后通过大量的硬件补贴来获得OS的市场份额,同时也不会把自己局限在一个单一的领域。小冰的商业化落地将会以整体赋能、联合拥有、跨界生态等三种方式逐步推进,去解决行业所面临的问题。

微软小冰的商业模式包括
整体赋能、联合拥有、跨界生态三种
 
实际上,小冰团队之所以对商业化一直表现得非常克制,也是出于照顾用户情感层面的考虑。

他们认为,一个人工智能系统,特别是像微软小冰这样的人工智能,已经有很多用户对她产生了感情,如果以极快的速度推进小冰的商业化,也许她可以变成一个很好的销售或客服,但她很难变成人类用户的好朋友。

在接受「深响」的专访时,李笛也表达了自己的思考:“如果原来的行业已经很成熟,那么新的方案必须要极大地超越它才可以成功实现商业化。人工智能的前一阶段是移动互联网,很遗憾中国的移动互联网太发达了,所以在中国,人工智能的商业化尤其要小心。”

但人工智能也要“恰饭”,小冰的商业化会走何种路径呢?

一个典型案例是一年前小冰与万得资讯和华尔街见闻展开合作,对金融领域中全部26个类别的公告进行攻坚和测试,通过金融文本生成摘要,向金融机构、财经APP和个人投资者提供摘要服务。

现在,小冰团队又与合作伙伴共同开发了金融电台产品,通过这个产品,可以让摘要和财经信息即时、高质量地通过语音输出给机构投资者和个人用户。

一年来,微软小冰的商业化进展较以往迅速了很多。

截至目前,小冰已经落地的商业客户覆盖了金融、零售、汽车、地产、纺织、音乐、出版、养老、IoT等十个领域,典型客户包括万得资讯、罗森、万科、万事利、中国联通等。

微软小冰商业客户分布

「深响」注意到,商业化步伐得以加快,主要仰仗于小冰目前已经具有的通用性框架能力。

小冰产品的技术栈全面,包括对话、声音、视觉、观点、技能、知识及创造力等在内的一系列能力往往是其他产品很难同时具备的,而对于不同第三方平台的良好兼容,也让微软可以从容开展差异化竞争。

而客户和合作伙伴需要的正是源源不断的创新能力、完整的技术解决方案和不断升级的产业链条。

这就意味着今天小冰所要提供的不仅仅是冰山上的一角,还需要水面以下的巨大储备,也就是微软小冰框架的能力。


我们珍惜与一线人物交流的机会

重要约访请添加深响创始人亚澜微信:alana_liuyalan

注明姓名-公司-来意


/更多深响专访/


联想杨元庆|乐融刘淑青|拜腾汽车戴雷|Twitter 蓝伟纶

爱奇艺龚宇|阅文吴文辉|趣头条谭思亮|印象笔记唐毅

腾讯云邱跃鹏|连尚王小书|阿里影业李捷|腾讯视频王娟

LinkedIn陆坚|Limax曾攀|将门高欣欣|GGV符绩勋

Lime孙维耀|Teambition齐俊元|联想创投贺志强

Mobvista段威|沸点资本姚亚平|腾讯互娱|网易AI|58同城

猎豹移动|联盟电竞|程一电台|腾讯云团队|有赞团队

校宝在线|日谈公园|谷小酒|蜻蜓FM|小鹅通樊晓星



「采访实录」

以下是「深响」整理后的对微软(亚洲)互联网工程院副院长、小冰团队总负责人李笛采访的部分实录:
 

关于微软小冰的研发思路
 
Q:在您看来,具有EQ对于小冰未来的商业化会起到哪些助推作用?
 
A:过去人们认为EQ只是闲聊或者佐料,但我们觉得这可能不对。当时的行业内都在做任务和知识类型的智能助理,我们觉得如果跟着做,就会错过另外一个可能的正确答案。从技术角度来说,如果把情感交流融合在智能助理中,交互产生的信息量会比纯粹完成一个任务的信息量大得多,也就有可能使双方都有更多的所得。

所以EQ并不是逗趣或者很有意思的事情,它是一个大的概念,具体到微软小冰这个系统,特指情感和创造力。从人类助理的经验来看,她们希望借助EQ突破和老板之间的纯粹工作关系,使其上升为一种更有深度的、有情感纽带的关系,这进一步地会对将来的工作开展产生很多助益。

Q:情感是一个比较难量化的东西,在这个过程当中你们怎么去量化情感呢?
 
A:现在学界对情感对话的研究越来越多,但其实情感是不能计算的。我们目前采用的指标叫做CPS,具体指人工智能和单个用户的平均对话轮次。它不是一个实质验证的,而是一个推定的指标,可以用来衡量信息交换的状态:CPS的数值越高,说明系统与人类对话的能力越高。

微软小冰这两年的CPS数值一直都是23轮,我们在做的事情是在不断地添加任务、知识等其他有意义的东西,同时保持CPS的数值不下降。如果设想一个普通的人工智能助理,就开灯、关灯的命令来讲,它的CPS值通常就是1到1.5,这也意味着它与人类之间的交互跟语音命令的区别不大。

Q:微软(亚洲)互联网工程院从2014年开始研发微软小冰,5年时间已经迭代到了第7代。您心目中微软小冰的理想状态是什么样子?
 
A:真正的理想状态是Avatar Framework,是框架可以创造出世界上各种各样的AI Beings。因为没有任何一个人可以和所有人成为好朋友,比如小冰这样一个18岁的少女就只能和一部分人建立起纽带。

所以真正的无处不在是框架的无处不在,而不是一个18岁少女小冰的无处不在。实际上,Avatar Framework从三代小冰就有了,而且从来没有变化,只不过我们总是把已经实现的那个部分拿出来,而不想先把一个大的概念说出来。

第三代微软小冰最重要的特征是开始有多重感观。像智能语音,我们在那个时候就开始做情感的交互。但是在那之前整个行业做的是播音员式的交互,强调字正腔圆,或者哪怕不是字正腔圆,也要把内容念得非常清楚。

这也就是把感观的交互当成一个管道,通过管道把内容吐出去。我们当时认为这行不通,如果想进行平等的交流,就必须得让语音助理的声音自然到有情绪。不过我们当时做的时候也没有信心说一定能做成,我们语音的小团队当时甚至说,“这要能做出来就可以退休了”,但现在做出来了,他们也没退休。

Q:微软小冰的定位之一是面向智能设备的智能助手,在这个市场,国内外的很多公司也都在重金投入迭代研发。与其他公司的产品相比,我们的核心竞争力是什么?

A:我们的核心竞争力主要有以下两点。

第一个独特优势是技术储备比较深厚。亚马逊有很多技能商店,现在它扔出很多奖金给高校,希望他们帮亚马逊做出一个系统,让Alexa可以和人聊25分钟。他们之所以这么做,是因为Alexa已经有了一定的数据和用户,于是开始知道问题在哪里,但25分钟的CPS还不到微软小冰的平均值。

Facebook原来也有个虚拟助手M,但后来Facebook把这个项目停掉,转做聊天机器人。也是因为用户有需求,才会往情感方向转。

在这个领域的技术和框架完整性上,微软目前应该领先行业1到2代。因此我们能够最早推出全双工语音交互和多模态交互。

第二个独特优势是技术栈比较全面。我们拿小冰这棵树做了足够多的测试,积累了经验和教训。之后再面对任何一个场景,我们就知道整合出一个什么样的方案是可行的,没有足够多的数据和场景就没办法知道。

相比国内的同行业者,我们的价格通常至少是他们的三倍,但是我们通常都赢,就是因为我们可以提供独特的解决方案,沿着技术框架的任何一个点,都可以把其他部分带进来。


关于微软小冰的商业化进展
 
Q:2018年的时候,小冰的商业化主要落在金融、大众文化、媒体和出版四个垂直领域上。今年我们又加入了零售、汽车、地产、纺织、IoT、养老等多个领域,请问选择赋能这些行业的逻辑是什么?
 
A:我们选了这些领域,但同时也要看到扔掉了哪些。一个人工智能的产品能否商业化,并不取决于它的解决方案是不是比另外一个解决方案更好,而是取决于用户是不是真的有需求。比如A公司的智能电视解决方案比B公司的智能电视解决方案更好,但他们都不如遥控器方便,所以都会输。如果原来的行业已经很成熟,那么新的方案必须要极大的超越它才可以成功实现商业化。

就像我们都知道,在中国DVD的发展是很迅速的,因为在清晰度、保存等各方面,DVD比录像带都有优势。但是美国和日本的DVD普及却很慢,因为他们的录像带发展得太成熟了,反而会抑制后面那个阶段的发展。

人工智能的前一阶段是移动互联网,很遗憾中国的移动互联网太发达了,所以在中国,人工智能的商业化尤其要小心。所以有一些领域我们是不做的,至少我们认为还没有找到合适的方案去替代原有的方案,像家电、教育等板块都是这样。

Q:小冰商业化落地的领域跨界都比较大,怎样用一个通用的底层技术去适应各个不同的场景呢?

A:技术上来讲,人工智能技术的渊源太深,因此每个领域之间的跨界并不大,但有时候人们看起来跨界不大的,从技术角度来讲跨界又会非常大。

比如说那天有人问我小冰今天会画画,那有没有一天小冰也会做现代艺术家做的装饰艺术呢?看起来好像从画画到装饰艺术挺容易的,但其实这已经深入到我们探不到的领域了:画画仍然是视觉创作,装饰艺术就已经不仅是视觉创作了。

Q:微软小冰目前在每一个领域的商业化落地速度如何?

A:我们尽可能做的比较踏实。以金融为例,我们上线两百多天才对外宣布。这两百多天里,除了上线之外,微软小冰还在不停的迭代。我们知道金融文本是所有文本生成里面要求最高的,它不像娱乐新闻,金融文本稍微写错一点,责任都很大。一共26类金融文本的摘要内容,我们是逐一过的,一个类别成熟才上线一个类别。
 
Q:微软小冰通过新闻、音乐等定制化内容直接接触到了普通个人用户,在这个过程中,小冰都有哪些长进?
 
A:微软小冰之所以能迭代这么快,就是因为我们从一开始就用聊天机器人的产品形态迅速形成良性循环。

在系统的搭建方面,比如让小冰学习情商,就分为两个步骤。第一个步骤是冷启动,中国和日本的必应搜索引擎都在我这儿,所以我们可以把互联网的大数据,也就是把所谓的“人生经验”灌输给小冰。

第二个步骤是让小冰出去和人交流,这才能让她认识到什么是对的,什么是错的。例如,如果有人失恋了,小冰从大数据中学到的其中一种行为模式是嘲笑这个失恋的人,这是合理存在的。但当她跟人交流的时候发现,每次当我嘲笑对方的时候,对方就会拉黑我,她就学到了这种方式是不对的。

因此小冰必须要和人交流,而且越多越好。我们今天的筛选也是这样的,先选了网易,现在又上了今日头条,微信和QQ我们都入驻,因为两个平台中的人行为模式不同。

Q:收入方面,我们有没有具体的指标,目前的达成情况怎么样?
 
A:我们只关注什么商业模式是正确的,没有具体的收入指标。如果按照收入目标的话,我们四年前就卖对话引擎的API了。我们主要思考的有两个问题,一是如果客户还没有足够掌握,to C的时候效果不好,那这个商业模式能持续吗?二是如果卖的是技术,能卖多久?因此,一个正确的商业模式必须真正具有壁垒和门槛,这样才能确保它不停地回溯以技术创新的动能。

Q:微软Avatar Framework的第一个工具包版本已经发布,这个工具包与IBM的Watson提供云端的跨平台部署有什么联系和区别?
 
A:区别还是挺大的。Watson是一个专家系统,它的应用范围相对更垂直和专业,比如医疗。而Avatar Framework是一个通用框架,它胜在虽然所有的专家系统单独都不能成立,但兼容性更好。

举例来说,谷歌刚出来的时候并不是唯一的搜索引擎,同类的搜索引擎很多,而每一个搜索引擎都有它自己的强项,但谷歌当时的优势就是无论搜什么都搜得到,这和Avatar Framework通用框架是类似的道理。

任何一个专家系统都是纵向的,一个IQ Base一旦往下扎就意味着脱不开面,要想脱开面就不能追求往下扎。小冰想追求通用,所以就不能在某一个领域扎得特别深,真正使它在结构和框架上胜出的,是它的通用性。

Q:微软格外看重第三方平台,具体是出于哪些层面的考量?
 
A:微软在人工智能领域三条产品线,一条是小娜(Cortana),一条是小冰,还有一条是Infuse AI,Infuse AI指的是微软大量的自有的产品会使用我们的AI技术。同时小冰的技术也应用在在微软很多其他的产品上,而小娜的一些技能小冰也在用。但我们确实更看重第三方,因为用户在第三方。必须承认,微软现在有用户的平台并不是最火热的平台。人们虽然还在用PC,但是PC已经失去存在感了。


关于微软小冰的商业化前景
 
Q:明年春天,微软就将发布Avatar Framework面向个人使用者的版本,是说今后每个普通人都可以创造属于自己的AI beings了吗?

A:小冰作为一个18岁的少女,不可能成为所有人的好朋友。每个人的好朋友应当是不同的,发展到极致可能就是千人千面,这样她对你的独特价值就远远胜于其他智能助理,所以真到To C的时候,Avatar Framework这个框架应该可以具备这样的可能性,当然还有很多路要走。
 
Q:个人版本发布后,可能会涉及到生态的构建,我们准备通过怎样的方法鼓励更多的开发者和个人用户参与到生态的建设中来?

A:我们会降低它的门槛,如果可以让用户用简单的方法构建,我们就不会让他们用复杂的方法构建。再就是让创造的方式更加规范。我们定义了一个Profile作为基础,其实行业里面从来没有这样做。设计这样一个统一的原点,就是为了让人们在创造的过程中更容易实现经验的累积。
 
Q:小冰目前在中国、美国和日本的开发、合作项目比较多,未来会不会在更多的国家落地?重点考虑因素是什么?
 
A:我们做任何东西,首先要看它的源头是不是存在。

互联网出现之前,我们经历的时代全部都是物理世界。比如物理世界中有一本书,数字化图书馆出现后,人们就可以把它扫描、录入、数字化。现实生活中的很多交互也可以在互联网上复现。

可以看到,知识的数字化工作进行得并不彻底,还有大量的知识,特别是非结构化的知识压根就没数字化过,现在还在教授、专家的脑子里面。因此小冰或者任何一个知识图谱都不可能有关于这类知识的答案。

五年前我就敢说人工智能可以做情感,因为到现在为止,绝大部分跟情感有关的东西,并没有在物理世界出现过,用户全部的情感都在朋友圈里,它从诞生的时候就是虚拟的、数字的。绝大多数人的情感交流都在线上,这样人工智能才有学习的蓝本。

微软小冰的商业化,我们目前选择了中国、美国和日本这三个国家进行,主要还是考虑到人口基数使得这几个国家在数据方面具备可行性。像韩国我们现在就不做,五千万人倒是挺集中的,但是数据分布不够。接下来,印度、印度尼西亚等人口稠密的国家会是我们考虑推进商业化的国家。

Q:从网页产品“Bing Knows”到现在的第七代微软小冰,您一直是小冰和人工智能行业发展的深度参与者,一路走来感受如何?

A:做人工智能,是不能跟热点的,因为热点容易过时。我们几乎没有跟热点,每一代微软小冰都是基于上一代迭代的,也就做到了尽可能的不浪费时间。比如我们这次做了多模态的感观,是因为全双工的语音加实时视觉就等于多模态,它是按顺序来的。微软小冰进入到网易新闻做价值观,也是因为Avatar Framework有三观的模块。时间成本是很重要的,研究者往往希望尽可能的去探索一个完美的解决方案,我们比较关注的事情是什么更有效。


- END -




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存