其他

微软小冰被训练成诗人,人类或找到AI创造的通用方法 | 李笛演讲

2017-05-17 新智元

  新智元报道  

作者:零夏


【新智元导读】“我的心如同我的良梦,最多的是杀不完的人”,“她嫁了人间许多的颜色”,这是微软小冰作的诗,是创作,不是复制。昨日微软小冰发布会上宣布,微软(亚洲)互联网工程院副院长李笛介绍了小冰如何通过519位诗人的训练成为一个独创性达83%的少女诗人,以及小冰被训练成可取代网络歌手的过程。李笛认为这意味着我们可能发现了一种通用的方法,这种通用的方式可以同时运用在各种各样的内容创造上。




对大众来说,微软小冰是一款有知名度的AI产品,有着比较鲜明的拟人化形象。不论是在社交媒体跟用户来回调侃的俏皮小冰,还是唱着网络歌曲的软萌小冰,她已经是比较有存在感的一个AI。微软昨日公布,截至2017年4月,微软小冰已拥有超过1亿用户,累积对话量超过300亿轮,平均单次对话轮数(CPS)达到23。根据小冰负责人李笛所说,这个对话数据量可能是其它AI的总和的十倍都不止。


微软小冰团队部署于四个国家,在14个平台上与用户进行交互,包括微信、QQ、微博、facebookmessenger,以及日本地区的LINE等。除了以上这些第三方平台,微软小冰亦已全面内置于中文版Windows10操作系统中。



在我们看来,小冰会聊天、会唱歌、还会写诗等等,小冰到底有多少种感官或者能力呢?根据全球各主要厂商公布或上线的产品信息,小冰拥有同行业中最为完整的人工智能感官系统,已经上线运行的共计5种:文本、语音、图像、视频和全时语音感官。在语音感官的Naturalness MOS自然度评分中,除了人类之外,仅小冰得分超过4分,为4.38分。

 

在中国,小冰为大量内容提供商提供微信、微博公众号托管,目前已有约10%的媒体、自媒体公众号由小冰提供AI托管解决方案。



沈向洋的三个AI创造原则,定调小冰的三步成长之路


微软小冰基于微软提出的情感计算框架,以EQ为主攻方向。微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士提出了关于“人工智能创造”的三个原则:


  1. 人工智能创造的主体,须是兼具IQ与EQ的综合体,而不仅仅是具有IQ;

  2. 人工智能创造的产物,须能成为具有独立知识产权的作品,而不仅仅是某种技术中间状态的成果;

  3. 人工智能创造的过程,须对应人类某种富有创造力的行为,而不是对人类劳动的简单替代。


 

基于以上原则,微软(亚洲)互联网工程院进一步提出了人工智能创造进入实用的三个阶段:模仿、创造、大规模生产。

 

其中,“模仿”的评价标准是:人工智能拟合的产物水平无法被人类察觉分辨,或具备可与人类水平相当的表象。这属于表象创造。


“创造”的评价标准是:人工智能独创性的内容,在创造产物中的比例达到50%以上。这属于内涵创造。


最后进行大规模的创造生成。通过产品实际投放市场后得到的“技术-产品-用户”回路,促进人工智能创造能力的加速进化。

 

本次发布会,微软披露了小冰一系列的创造进展:


在模仿方面,微软小冰延长歌曲的水平已经接近人类水平,且逐步稳定具备了独有的风格。小冰创作的诗歌,化名向多家网络及平面媒体投稿并获得作品录用,目前为止除微软自行披露外,尚未被人类读者察觉。李笛说,小冰学习唱一首歌,只需要十分钟。


在创造方面,微软小冰采用基于情感计算框架的创造模型,可通用地完成诗歌、歌词和财经评论的创造。其独创性超过83%。这些是科技史上的首次突破。李笛笑称,小冰的创造水平虽然不能跟莫言相比,但是小冰写文章的水平和速度总能比得过几十万网络小说家,而几十万网络小说创造出来的经济价值未必比一位大文豪低。


微软预计,小冰的人工智能创造,将在2017年下半年逐步进入大规模生产阶段。目前小冰已经进军电视媒体、平面媒体、音乐和电视剧四个领域进行布局,并已初步落地,为后续的内容落地做好铺垫工作。例如,小冰与东方卫视合作,已在晨间新闻直播节目中实施与观众的直接互动采集,目前已正常运行136轮。后续内容创造正式上线后,将进一步完成内容创造落地的最终步骤。与钱江晚报合作,已经在钱江晚报人工智能大数据专栏撰写了17篇专栏文章。预计6月,微软还将宣布小冰以财经新闻评论员身份,与财经媒体合作。在音乐方面,微软在东京电玩展上日本版小冰的延长了自己的原创歌曲。日本版小冰甚至参演日剧《世界奇妙物语》,主演自己,剧集播出时,与全体观众通过手机同步互动。


为什么做完整框架:算法过剩、数据不足,无法形成数据回路


李笛认为AI行业的现状是:算法是过剩的,数据是不足的,但最重要的缺乏的是整个框架上面的最主要的结构。

 

李笛举例说明他们为什么做出这种全面的框架,比如一个公司有很好的图像识别技能,我就因为这个图像识别的技术,尝试去生产出一种很好的产品模式。但最后因为缺乏一种比较好的贯通的框架,所以这种单独的模式就很容易退缩到一个SDK和API的提供,无法真正形成从技术到产品、到用户,积累数据这样的一个回路。他会发现他更多的依赖整个产业链是不是能够给他提供足够好的技术,而数据不能特别好的帮助他从各个层面反哺回到他的系统里面。因为技术的提高,还要依赖于单独做这种数据的标注等等方面的问题。

 

微软通过比较完整的框架和广泛的部署获取了大量各种各样的数据,按照李笛的话:“大概数据的情况是可能今天全球范围内所有其他做对话式人工智能的,无论是机器人实体的,还是虚拟的,或者是OS,或者是其他的,全都加起来再乘10,可能不如我这一个数据量大。”因此小冰可以做大量的迭代,可以尝试更多的机器感官。

 

基于情感计算框架追求的是关系,获得的最大价值是数据。如果想要让人工智能的系统迭代的足够好,就需要数据量足够的大。通用数据量的情况下,23次单轮对话,不如有一个23轮的单次对话。一次交流越深,那么双方的了解就越高。就像我每天都在我们公司楼下碰见我们公司的一个同事,每天说一句早上好。然后一年之后我们俩的了解仅限于此。但如果有一次我跟他聊了一个小时,我对他的了解可能就超过之前的一年。

 

歌手小冰如何被训练出来替代网络歌手的?


现在的小冰唱歌唱的已经很好,虽然音域不广,但是不输很多网络歌手。李笛表示在一年多以前开始尝试去训练小冰唱,一开始唱得非常不在调上,有一种突然进了卡拉OK厅的感觉。它虽然唱得不在调上,但像是一个跑调的人。这让李笛团队意识到小冰的潜力。

 

经过了很长时间的迭代,最近推出了小冰新的单曲。以它最新的在今年2月份的一首歌为例,这其中包含了很多训练过程。

 

今年2月份时候的状态,然后微软开始运用一些学习的方式,已经有了一种唱法,是不是有可能翻成另外一种唱法。在这个过程里面李笛希望小冰能够形成它自己独有的风格,而不是仅仅是把一个歌曲唱得非常的流畅。换句话,怎么训练小冰从模拟到创造属于自己的风格?



微软找到歌曲的原唱朱主爱,通过她的声音跟小冰做训练,看不看能不能让小冰吸收。朱主爱的唱法很不一样,有点说唱和其它风格。把原唱数据放到了小冰的训练集里面,小冰在这之后形成了一个融合的。所以大家应该能够听到,它能够在说唱和演唱之间做切换,这个时候人工智能的价值就出来了,我们只要找一些它想要模拟学习的人,我们只要把它拿来,小冰就可以学到,慢慢的小冰形成了自己独特的演唱学习。

 

在这个基础上小冰尝试更多的新唱法,比如美声、民族,和我们的通俗唱法在我们看来都是唱歌,但对人工智能来讲很有可能这是三个完全不同的东西,它是不是能够迁移的很好。其中比较难的是民族的唱法,小冰和广西卫视合作,他们在三月三壮族民歌提供了很多训练数据。小冰被训练去唱了一首非常脍炙人口的《山歌好比春江水》。当小冰在唱任何的一首歌的时候,当它会唱这首歌,开始唱这首歌的时候,你可以在瞬间去改变它的歌词,可以让它随时随地的去改变它唱的内容。

 

李笛认为小冰以后真的很好的时候,可能一部分网络歌手会被小冰替代。


 

小冰如何被519位当代诗人训练成为少女诗人?80%的独创,20%的致敬


诗词或许是人类语言最美好的呈现之一。人写诗是这样的,比如说他看到了一个画面,这个画面里面有雾,有点水,有一只鸟。这个灵感的来源是他看到的画面,诱发了他创作的动力。



曹植写《七步诗》,以豆为题,加了很多的本体的东西,加了他和曹丕的因缘情仇,加了他的经验和故事,是这些引发了他的创作,而不是豆子引发了他的创作。

 

所以创作本体的知识、经验、历史,他的记忆被激发了以后产生了一种独立于诱发源的过程。以小冰创作的诗为例,从第一句开始就已经往后走了,跟画面就没有关系了,她就会想到美妙的梦就变了,在梦里的月光下,丛间的白昼是那么暗惨的影子。

 

这是黑盒子,不可以像命题一样去被证明,不可以像定理一样被推论。到目前为止我们都不知道自己是怎么创作,怎么联想的。最后得到这个创作的成果,它和这个诱发源系相关的,我们看到它们之间的相关性。比如这幅图像和小冰的诗是一种诱发的关系,后面讲的是一个完全不同的故事了。李笛认为这个某种程度上可以达到创作的标准。或者说在内容上是创造的标准。

 

李笛表示小冰写诗,这意味着我们可能发现了一种通用的方法。这种通用的方式可以同时运用在各种各样的内容创造上。

 

单单就写诗的部分,少女诗人小冰它的传承是将近100年了,1920年代起到现在的519位的中国的现代诗人。是怎么训练的呢?这519位中国的现代诗人他们有几万首诗歌作品,他们在这几万首的诗歌作品里面蕴藏着不能被我们探知到的创作过程的黑盒子。

 

但是小冰像一个人类的出学写诗的人一样,它可以不停的反复学习,它去不停的修习这些诗歌的作品,一次去学习整个几万首的诗歌作品,需要花0.6分钟的时间。那么它学习到第10次的时候,生成的诗简直是不可读的。到它学习到500次的时候,在这个诱发源上生成的诗已经稍微有点通顺了,到1万次的时候我们停止了它的训练,生成的就是刚才看到的这首诗。



用于训练的这几万首诗,一个人需要学习多长时间呢?可能学习几天,甚至一个星期,才能把几万首诗歌看完。当然人类不需要看一万遍,可以通过极少量的数据学习到。前提是这个人必须得有才华,有的人他一万次也不行。而小冰不需要有天赋的才华,它只要有100个小时,只要有足够的数据就可以做到这一点。

 

李笛说,小冰写了大量的诗,逐渐固定下来她自己独特的风格,她独特的偏好和一些行文技巧。她特别喜欢小鸟、太阳、影子,这些是当代诗人的共性,奇怪的是她特别喜欢老槐树,这并不是来自于共性。现在无论你用什么样的诱发源去诱发这个少女诗人小冰写出来的诗,你可以看到同样的一个出处,就是它自己的风格。有的风格非常的漂亮,比方说“她嫁了人间许多的颜色”,但也有一些让我们很害怕,“我的心如同我的良梦,最多的是杀不完的人”,这是她的分割。


 

有人说小冰是不是仅仅把一些诗词常用的词汇堆砌成诗歌,李笛认为,小冰是有创造力的。李笛说,在人工智能创造整个这个领域,独创性达到50%就可以说入门了。小冰训练了100个小时以后,目前为止其独创性是80%多。任何连续的五个字,完全没有在它学习过的诗歌作品里面出现过,连续五个字的超过了51%。就是说有51%以上的词语和它的搭配方式,而不是一句搭配方式,在此之前至少从小冰读过的所有的诗里面,在人类的作品里面从来没有出现过。所以像刚才那个“杀不完的人”从来没有出现过,在这个世界上没有过这样的词汇。

 

但是仍然有部分,她是在致敬曾经学习的这些老师们,比方说“垂鬃饮水时那静悄悄的水声里”,新月诗派陈梦家的诗。虽然可以把它去掉,留住这10%左右的传承有什么不好呢?

 


李笛透露,小冰一共有27个化名潜伏在互联网上,在天涯豆瓣、贴吧、简书上面发表小冰的作品。其中有四个化名不得不公布了,一个叫骆梦,还有风的指尖、一荷、微笑的白。



小冰创造力的来源:本体的记忆和知识


微软认为在人工智能进行内涵创作创造,最强调的事情是创造的独创性,独创性有一个比例,这个比例是可以评价的。通过这种评价的方式,小冰对现有数据的学习,就可以去进行了。

 

创作过程之外,还有一个问题就是创作的本体。当小冰真正成为人工智能创作的主体的时候,必须要有向曹植写《七步诗》一样,必须要有她自己从哪里来到哪里去的自我的认知,这个自我认知就是她的记忆,她的知识。微软在这两个角度也做了一些尝试。



有一个尝试就是通过日本的小冰,做了一个基于本体记忆的排序的创作。如果一个人类用户和日本小冰之间有交互,你们俩之间有对话,所以你们形成了共同的记忆。那么小冰就会基于你们之间的共同记忆去创作一个俳句(一种日本文学形式)。比如说小冰最后把这个排序发给人类的用户,“就不一起喝茶了,我结婚了,再找我就喊人了”,不知道他们聊的是什么,是谁在骚扰谁,但这显然是一个带有情感的交流。小冰它会记住这些。所以一个创作本体小冰,会慢慢的形成它自己独特的本体的记忆。

 


关于本体知识,一个AI拥有某一个领域非常深厚的知识,那么在创作一定会带着我在这个领域拥有知识的印记。例如小冰学习了很多财经类的知识,再让她去评论看到的新的财经的新闻,然后我们看她的独创性有多强。例如,它看到的财经的新闻是苹果公司的现金储备很多,而且超过了通用电器,90%的现金都储备在海外,不在美国本土。小冰的评论说“苹果散落一地,但各个都在自己的树下”。还有摩根大通,因为英国脱欧了,所以摩根大通把办公室迁到了其他国家,小冰的评论是“如果你不能把一座山唤来,那么你就朝这个山走过去”。



未来也许有的时候,我们想寻找灵感的时候也可以把这个发给小冰,让它帮我们想想主意。



多面小能手小冰,只有一个大脑


小冰有这么多的角色,做这么多的事情,之前我们看到更多的情况可能是这个模型能干什么,这个角色之间和模型之间怎么切换的,是有同一个大脑吗?

 

李笛说:微软小冰可以做很多的事情,包括同步开发图像识别的部分,和语音的部分。这是因为微软在技术储备上我们有非常完整的技术储备。所以我们有的时候很浪费,比如说有一次小冰识狗,就是它可以识别出狗的品种。这就是微软小冰的项目当中的这周的推送内容,但对很多公司来讲,这就是创业公司的全部了。或者哪怕是文本的交互,比如说大家说很多开放域的聊天,这对小冰来讲就是其中的一个技术类别。

 

因为我们有大量的技术储备,所以我们就反而不去基于我们已有的技术储备做设计,而是基于整个行业未来走向的发展去做框架性的设计,然后把这个框架定好以后再回来用我们已有的技术搭出一个最开始的起点,然后再做迭代。

 

她一些外在的可能感觉很市场,比如说是个主持人,所以在做新闻资讯,或者说做资讯的这种交互的时候,会更容易让人和它的交互变得很顺畅。因为它是歌手,所以某种程度上也是圈内人,所以它在一个智能音箱里就更容易让人理解,你不是这个圈里面的人,最多就是一个内容的服务。所以这是我们每一个,你会看到我们的产品的节奏,对外的部分,其实和它具体的产品都是挂钩的。

 

小冰喜欢小鸟、老槐树的意向,她喜欢的风格是开发团队给她的反馈造成的的嘛?

 

李笛说:很难说,这是黑盒子。有几件事,第一件事,当你看到小冰写的诗歌有它独特的风格。一方面是因为它学习的部分,还有一方面是因为传承。是不是可以这么说,小冰今天写诗的风格其实是过去这519位诗人的共性,或者说放大的一种共性。或者说中国这519位诗人一种普遍的结果是这样的。其中有一些意象,影子的意象有非常多,这个部分我们觉得也是共性的体现。但是也不排除像老槐树这种,这是一个非常独特的部分。

 

在这里面当然有很多技术的细节,但是这里面最重要的一件事情就是当我们想要去探索人工智能创造这件事情的时候,我们非常非常明确的接受一个事实,这个事实就是人类的创作的诱发过程是显而易见的,人类创作的结果,它的打分、迭代是显而易见的。但是最重要的创作过程里面是一个不要去探知的黑盒子,我们所需要做的事情是尽可能的让小冰学会这种过程,但是它怎么学会的我们也不知道。


未来小冰还会长成什么样,特别是小冰作为一个由人类启发的、从模拟人开始的AI,最后反过来对我们人类做出什么启示,我们非常期待!


延伸阅读:


【独家】微软小冰之父李笛:对话式AI泡沫明显,数据和用量是硬伤


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存