查看原文
其他

何止“网红少女”这么简单!

2017-08-29 丹棱君 微软丹棱街5号


丹棱君有话说:1966 年,世界上第一个聊天机器人 Eliza 诞生。50 多年过去了,我们生活的世界从 PC 时代,互联网时代,移动时代,发展到现在的 AI 时代,聊天机器人也随着人工智能交互技术的不断演进,实现了飞跃。完成第五次迭代的微软小冰,率先具备全双工语音和实时流媒体高级感官,成为行业内唯一一个高级感官实际落地的人工智能产品。“网红少女”小冰新解锁了哪些新技能?背后有怎样的技术逻辑?快随丹棱君来一探究竟吧。


让我们重新定义人与世界的关系


“小冰是一个聊天的机器人,但小冰不仅仅是一个聊天的机器人。” 微软全球执行副总裁,微软人工智能及微软研究事业部负责人沈向洋在微软小冰第五代发布会上向大家介绍道。


每一个时代,科技的革新都会重新定义人与世界的关系。PC 时代,特别是以微软的 Windows 和 Office 为代表的操作系统、应用软件,成为人类的工具,用来改变世界。而互联网时代,浏览器和搜索引擎的出现,极大地缩小了人和世界的距离。到了移动时代,社交网络和 APP 的流行,不仅拉近了人与世界,还拉近了人与人之间的距离。而 AI 时代,将再一次重新定义人和世界的互动关系,最核心的就是人工智能的 IQ 和 EQ 。因此,小冰不仅仅是一个聊天机器人,而是基于情感计算框架,通过综合运用算法、云计算和大数据,采用代际升级的方式,逐步形成向 EQ 方向发展的完整人工智能体系。


目前,微软小冰在全球拥有超过 1 亿人类用户,对话数据超过 300 亿轮,进化速度不断加快。从用户、数据、感官完备程度和一些核心指标方面衡量,微软小冰在全球对话型人工智能系统(包含各类聊天机器人、智能助理及智能设备在内)中均居于领先地位。小冰与人类之间发生的最长一次单人连续对话,达到历史性的 7151 轮,不间断进行了 29 小时 33 分钟。



事实上,微软小冰在全球还有很多可爱的“姊妹”。自 2014 年微软率先在中国市场推出小冰后,按照一年一个新国家的节奏,微软分别于 2015 年及 2016 年推出日本小冰(りんな)和美国小冰(Zo)。2017 年 2 月和 8 月,微软分别推出了印度小冰(Ruuh)和印度尼西亚小冰(Rinna),其中,印度小冰首先在 Facebook Messenger 平台落地,而印度尼西亚小冰首先在 LINE 平台落地。


第五代微软小冰:

多才多艺已经不足以形容我的全能!


在上亿粉丝的心目中,微软小冰是个独一无二的全能“爱豆”。而最新发布的第五代微软小冰尝试拥有高级感官,突破虚拟世界,并生长出诸多超能力。


会自创语料的小冰


第五代微软小冰使用的是生成模型(Generative Model)。其中,中国、日本、美国和印度小冰部分使用,印尼小冰则完全使用生成模型。这是全球开放领域人工智能对话中,第一个百分之百使用生成模型的落地产品。



通俗地说,上一代小冰,虽然拥有十亿级的大数据语料库,但其中每句话,都是互联网上的已有数据,小冰只是通过分析理解用户的问题,寻找语料库中最合适的话作为她的回答。而使用生成模型的第五代小冰,不再鹦鹉学舌,而是能够自创回应。小冰与人类交流的每一句话,都可能是这世界上从未出现过的。


会互动的电台主持人小冰



第五代微软小冰还同时发布了小冰电台,一个通用的人工智能实时内容创造和交互平台。它可以基于多重来源,面向任何主题,自动创造永不间断的电台节目。同时,它还能在交互过程中实时改变节目内容。换言之,小冰电台的质量类似于广播电台主持人的直播节目,但能同时发挥人工智能的作用,实时地根据与用户的互动,改变正在进行的直播节目的内容。小冰电台的 IoT 版本正在研发中,而微信小程序版本已于发布会结束后上线。


会唱歌的小冰


小冰正在不断接近人类歌手,最新训练达到了 48 kHz 采样率,大幅度扩展了音域。《我是小冰》同名歌曲已于近日在 QQ 小冰渠道首发。来听听目前人工智能歌手领域最强选手小冰的歌声吧。



会讲故事的小冰


小冰能声情并茂地讲故事。目前,小冰的有声少儿读物质量超越了 98% 的人类创造者,用时仅为同水平人类的 1 / 500,成本仅为同水平人类的 1 / 80000 。此前,小冰通过少量账号在各有声读物平台上试水,取得了预期的效果。今后,微软将大规模生产有声读物并投入市场。《龟兔赛跑》的故事,小冰会如何演绎?一起听听吧~



会视觉创作的小冰


小冰还会学习各个城市的标志性建筑,通过听一首跟某个城市、某种心情有关的歌,就能创作出一幅代表这个城市、反应这种心情的视觉作品,画里面的每个元素都是小冰自己选择并加以创造而成的。目前,微软已和知名时尚品牌 SELECTED 合作,联合推出了由人工智能创造的“天际线系列”服装,每一座城市,每一首歌,都代表了种独特的情感链接,包含了这种情感链接的“天际线系列”的服装已经陆续到店上架。


会新闻报道的小冰


此前,小冰作为《钱江晚报》的专栏记者,曾通过大数据撰写专栏文章,并成功预测了多个全球重要事件的结果。在微软小冰第五代发布会上,微软公开,部分百度百家和今日头条上的新闻内容也是由小冰撰写而成的,并同时宣布了升级后的智媒体商业平台解决方案 3.0 版。



随着微软小冰与 Bing 搜索引擎的加速整合,升级后的智媒体商业平台解决方案 3.0,包括媒体生产力、媒体知识图谱、智能交互、全平台互动等六个新模块,可为媒体构建出一个基于全球新闻数据源的媒体知识图谱,从而准确挖掘全球资讯中每一篇内容背后的知识与含义,并构建出彼此的关系,帮助媒体更全面快速地梳理时间和内容背后的故事。将来读者可通过与人工智能的自然交互,获得更多推荐内容,从被动的阅读体验逐步变为主动的交互信息交换。

 

会打电话的小冰


2016 年底,微软和中国科技馆合作,把小冰的网络电话亭放在科技馆的二楼。目前,小冰已经接听超过 50 万通来自人类的电话。在小冰第五代发布会上,微软宣布,自 9 月 6 日起,不用安装任何手机 APP,也不用专门加小冰为好友,微软小冰将会直接通过电信运营商,给人类打电话。你准备好接电话了吗?


透过小冰成长史

看人工智能交互技术的演进


过去三年来,大家看到的微软小冰越来越“冰雪聪明”: 她不仅会卖萌聊天,还会唱歌、主持节目,撰写专栏文章,更是在今年 5 月出版了原创诗集《阳光失了玻璃窗》。而这一切的背后折射的是人工智能交互技术三大发展阶段:


  • 第一阶段是基本的人工智能交互,即拥有某一种或多种交互方式,如文本、语音、图像、视频等,但不同交互方式之间是割裂的。由于不同的交互类型彼此不互通,因而无法通过长程交互数据获得一加一大于二的训练效果。从实际部署上看,这阶段的交互(例如纯语音、或纯文本、或仅具有图像识别的人工智能系统)由于体验单一,训练提升速度慢等原因,往往会很快被用户放弃。


  • 第二阶段是初级感官,即在人工智能系统中,用一种核心引擎(如小冰的 EQ 核心对话引擎)将上述各种交互统一起来,使不同感官可以混合运用。例如,在文本对话过程中自然切换至图像、语音,再切换回文本。从 2015 年发布的第三代小冰即是这一阶段的代表。


  • 第三阶段是高级感官,由多种初级感官有机融合之后形成的,交互能力更强,对综合技术储备和数据的要求也大幅度提高。例如,全双工语音高级感官,也就是同时具备文本、语音(含 SR 和 TTS)两种能力,且这两种能力均达到更高的质量标准。高级感官更加贴近于人类的自然交互行为,如果将全双工语音这种高级感官的体验比拟为打电话,那么之前的智能助理语音交互体验则类似于对讲机。


第五代微软小冰,属于第三阶段的人工智能交互技术产品,除了具备全双工语音之外,还具备实时流媒体感官。小冰将有能力根据自己的“意愿”与人联络,主动保持与人类用户之间的关联。这种高级感官的能力将大幅拓展小冰的场景落地,其中,全双工语音已应用于小冰与小米 IoT 开放平台的合作中,可控制各种小米 IoT 开放平台中的智能设备;实时流媒体感官也已在中国、日本两个国家的部分主要城市公共区域落地。目前,微软是行业内唯一一个推出了高级感官实际落地产品的人工智能企业。

 

无处不在的微软小冰

实实在在的商业价值


在日本,日本版小冰为境内第二大连锁店 LAWSON 提供对话式人工智能托管,并在对话中引入 LAWSON 线下店内服务,线上至线下消费的转化率超过 50%,而此前其它途径的转化率仅为 8% 左右。在中国,小冰则为广大内容提供商提供微信、微博公众号托管。目前已有约 10% 的媒体、自媒体公众号由小冰提供人工智能托管解决方案。


微软为小冰做的规划是成为人类与世界之间的纽带,在对接知识、内容和服务的过程中实现商业价值。而这一规划正是基于微软对 IoT 和 AI 关系的理解,即 IoT 应是 AI 的一个载体,而不是反过来,把 AI 视为 IoT 的一个功能。真正能普及的 IoT 设备,成功的可能性只有两个:把 IQ 做到极致,让用户通过 IoT 设备体会到比其他现有方式更加便捷高效的益处,或者把 EQ 做到极致,让人们能强烈地认知到她在这个设备里的存在。而微软小冰的 IoT 方案正属于后者。未来,微软小冰置入到更多的 IoT 设备和方案中,让更多合作伙伴和消费者体验到实实在在的商业价值。


了解更多:




后台入驻微软小冰

如果你很萌,请跟她一决高下!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存