查看原文
其他

【专家观点】杨强:从“互联网+”到“+智能”(28页PPT)

2015-08-25 战略前沿技术

【注:本文由杨静lillian(lillian_yang_1111 )授权转载,原文由中国人工智能学会供稿,静沙龙记者王嘉俊整理】




2015年8月14日,由中国科协、中国科学院指导,中国人工智能学会主办的第五届中国智能产业高峰论坛在上海长荣桂冠酒店顺利召开。

下面是中国人工智能学会副理事长、 2015国际人工智能大会IJCAI -15 程序委员会主席、香港科技大学教授杨强的发言。杨强在报告中总结:互联网+为我们带来了大数据,而大数据又为我们带来了智能的可能性。 通过“群体智能”,“终生学习”和“特征工程”,大数据让传统的服务变成又智能的服务。 这也是我们所倡导的“+智能”的精髓。这种“深度+”是通过大数据来产生的,具有领域知识的、 有群体智能,终生学习,特征工程的“+”

杨强
杨强】我非常荣幸能够跟在这里和大家一起交流。今天,我们听了很多的议题,都是关于“智能”和“智能产业”的。下面,我将从学术界的角度给大家一个观点,通过我知道的几个例子阐述“智能在产业中的位置”这个问题。 我的报告题目叫:从“互联网+”到“+智能”。
首先,我们知道,当下比较热门的一个话题叫“互联网+”。大家所知道的“互联网+”的意思就是:利用互联网的连接能力来赋予传统行业产生一个新生的活力,把传统行业带到千家万户。同时,为传统行业提供一个更加简洁、更加高效的分析和运作能力。
我们知道这样的一个“互联网+”的理念,实际上是离不开互联网的本质。它的本质我们可以总结几点:最重要的是连接,连接很多人和物。另外,它提供了一个实时的服务。所有的这些服务产生的大数据,使得我们了解一个长尾的分布, 并加以分析,可以更关注用户的个性化的需求。而所有的这些服务和个性化的需求,是通过什么来实现的呢?这就是“大数据”,我们常用四个V来总结它:体量大、速度快、类别多、真实性强。
如果我们把“互联网+”连接到传统企业的话,需要怎么样的“+”法呢?现在有各种各样的“+”法,有浅层的“+”法,也就是说简单的把传统行业的一些帐号、注册,挂号过程,提供给大家,使得互联网能给大家带来一些便捷。 但是这个仅仅是在做一种非常浅层的连接。 它的作用只不过是使得传统行业的触角变得更远,但并没有在本质上使传统行业产生深刻的变化。
反过来说, 如果我们可以在互联网的基础上更进一步,使得传统行业能够直接和用户对接, 并了解用户的需求,学习到深层的领域知识,从而进行个性化,持续的服务。 这种进一步的“+”法是一种深入的“+”,也就是说,这个“+”的中心实质问题是人工智能,是AI,所以这里就用这个“+”中带有AI的符号来代表。

就像刚才讲的,这种“+”的需求是由于互联网带来的一种长尾效应。这种长尾效应体现在服务的种类和用户的需求是在指数型的扩展。它带来的互联网的增值,体现在“个性化”上面。因为每个用户的需求,每个产品提供的功能都是不一样的。在如此广泛的范围之内,我们不可能只依靠人工来提供这样的服务,让用户得到满足。所以,要提供机器学习的功能,通过很强的人工智能来提供这样的服务。机器学习,就要依赖于大数据做模型训练,因此我们就说这种深入的“+”,是离不开大数据的。
如果互联网只是在表层浅显的和每一个传统行业接触的话,仅仅提供一个新的入口,就不能够获得所需的领域知识,也就不能够真正的为用户提供这样的一个深层次的服务。

比如:在和银行呼叫中心对接的时候,通过互联网收取大数据,就会学到不同的策略。可以对不同的用户建立不同的服务的策略,拓展价值客户的识别,开展对VIP客户的挽留等等。这些都需要很深层次的领域知识。所需的数据种类可以大有不同:有语音、图像、推荐,搜索的数据等等。利用这些数据,我们可以建立各种各样的专业领域内的知识图谱来提供服务。
我们问,用大数据和人工智能为我们带来的这种变化,这种深度“+”,对于用户来说,是有强大吸引力的, 所以我们说的这种加法是有黏性的“+”, 是把智能加到互联网和传统企业之间的,产生像润滑剂一样的效果。所以, 我们管它叫做“+智能。” 下面,我就给大家举几个例子,来展示几个不同的角度,我认为“深度+”应该怎么样来实现。

读者也许会问:互联网+的“+” 在互联网的后面, 为什么+智能的“+”要放在智能前面? 我们知道, 人工智能的应用是需要一个平台来“附着”的。 这个平台可以是互联网, 可以是传统行业(如金融), 也可以是互联网+传统行业, 但无论如何,它是锦上添花的“花“, 是需要有一个附着点来发力的。
第一个例子是这样的;我们知道高考这个事儿是我们每个人都经历过的的。 但是高考之后遇到的一个问题,就是大家如何选择正确的学校这件事儿。 这种选择是一种双向的选择。学生在想:我到底是要有名气的学校,还是比较保险的,可以接受我的高考分数的学校?同时,想得比较深一点的考生,就会想:“更适合我的专业是哪些?也许我的目的是想提高本人的价值,或者是赚到更多的钱,或者是找到比较好的朋友。”那么他可能因为具有不同的目的,想去的地方也不同。
这里我要举的例子,是一个叫做IPin的公司,他们利用互联网大数据,通过个人简历所积累成的大数据,建立了一个智能择校系统,为高考生服务。大家可能看过一个卡通片叫《花木兰》,它在决定它自己是否去从军的时候,就有很多的祖先来给它提供各种各样的建议。有人说:“去。”有人说:“不去。”我们每一个人在面临这样的人生抉择的时候,也希望有这样的一个长辈来告诉他你应该走这条路,之后走这条路。
IPin的这个大数据系统可以把这些简历作为基本的数据,提炼解析后,在简历里面按照时间轴来罗列每个人所去的学校,进行的工作种类,以及他在学校的所做活动,和他所取得的一些成就,由此,就将成千上万人的上述内容,变成一个完整的具有时间和空间的职业图谱。因为这个图谱是集中上亿人的数据,所以应该说它的质量是非常好的。有了这样一个图谱,我们就可以根据每个人的情况和所提的要求进行个性化的智能推荐了。
比方说,以华中科技大学为例。 一个高考的学生可能在问:我要不要上这所学校啊?通过大数据系统,我们可以推断,他毕业后在哪个城市的可能性比较大,这些学生大部分是学的什么专业?或者是说学的专业的比例,去的哪些公司等等。所以在下一步,他就可以去想,我应不应该去上这一所大学。
同时,这样的一个图谱,也为考生们提供了更多的职场知识:我们就可以知道,假设我的目标是去腾讯这样的公司,那么我们想知道里面员工平均的情况。他之前和之后员工的来源和去向都是有哪些,这些职业规划是不是适合我们工作。像这样的一种在互联网和教育行业之间的连接,才真正的为每个人提供了一个有深度知识的连接,为考生提供了一个智能的导师。

再近一步,利用这种知识图谱还可以为你提供多步的规划,可以通过机器学习里的强化学习,就像机器人规划一个在物理空间的移动一样,我们也可以把某个人在一个虚拟空间的移动轨迹进行一个优化,把这个人生的轨迹、最优的轨迹给显示出来,满足多个人生目标,这个就是强化学习。
我的第二个例子是有关微信的。 在微信这个平台上,有很多的人工智能的研究可以展开。我们很多人都在用微信,但是大家可能不知道的是微信后面有一个从事“模式识别”的团队,他们提供的很多功能现在大家都是在用的,比如图像和语音识别。通过机器学习,可以进行在照片上人脸识别,可以扫描人、扫描物,图象风格和甚至进行3D的虚拟现实等。
今天我要举的例子是“群体智能”:如何通过微信提供的成千上万人的力量,产生一个质变的效应,来做一件我们以前做不了的事情。
这里我要举一个公益方面的例子,就是微信利用群体智能所做的一个尝试,这个名字叫作“听见”。它的目标是利用微信和群体智能,为盲人、盲胞进行有声读物,帮助盲胞读书。我们知道盲胞如果要听一本书的话,在过去我们是找一位非常有名的播音员把这个书从头到尾读下来。这样做虽然质量虽然高,但是读书的数量却有限。如果我们能够利用大家的碎片时间,让每个微信用户都可以有机会去读一段文字,再利用人工智能把众多的读物喝起来,就可以很便捷的合成一个有声读物。比如:我们可以获得《红楼梦》的某个自然段,然后把我们读的声音上传到云端,在云端利用语音识别去识别这个自然段的质量,最后把高质量的语音片断连接起来,变成一本有声书。 这个例子,就是群体智慧的一个语音版。到现在为止,微信和许多公益团体,企业,成功地做出了100多本读物,分发给盲人同胞,产生了巨大的反响。
我刚刚讲的第一个是大数据和互联网带来的一个新的连接的可能,就是群体智能。群体智能为“互联网+”,为“智能+”提供了新鲜血液。下面我要说的是另外一个方面,就是互联网+ 带来的是源源不断的数据, 让系统有机会进行“终生学习。”
首先,终生学习的概念是这样的:在过去,我们的学习方法是拿一个训练数据,训练出一个模型然后再应用。在我们到一个新的领域,又要重新开始训练。 这样, 过去学到的知识并没有被利用起来。但是,我们知道, 大数据是不断的更新,就像智能的老鼠在一个迷宫里面,它也不断地得到新的信息,然后产生新的模型。这个新的模型再利用进来,他又得到新的反馈。这个循环以后,这个系统就不断的改进,不断的提高,这个我们叫作“终生学习”。
“终生学习”是很通俗易懂的。 我们在互联网电商的产品推荐问题上,也需要终生学习的能力。比方说,用户们看到了某类广告的的投放,满足自己需要的,就可以去点击。用户点击了的产品广告,就表示他有兴趣。但是如果他没有点击呢,我们就不知道了,我们可以理解成或者没有兴趣,或者他有兴趣而没有点击。
如果我们看一下点击的变化,沿着时间轴的数据流动,每一个产品,用户群对它感兴趣的程度就是一个时间的函数。也就是说,用户的兴趣也不是恒定不变的。那么放到个人身上,我们就很容易理解为什么一个用户的兴趣是在演变的。比如:我们在春节的时候感兴趣的产品,在夏天就不一定感兴趣。所以说, 在网上用户的点击可以来自用户兴趣的变化,这个变化就需要我们的智能系统不断地学习,也就是终生学习。
终生学习的需求还来自另外一个方面,就是当预测广告点击的模型变得非常成功以后, 对未来的数据就会变得麻木,从而使得系统收到挑战。如果我们现在看到的是一些正例和负例,系统就可以根据正例和负例建立一个模型。但是如果这个模型非常好的话,那么我们以后今后得到的例子也往往大都是正例。 而我们再利用这些正例来重新训练我们的模型,那这样的模型往往就会变得有偏差。为什么呢?因为我们误以为今后所有的例子都是正例,而负例我们看不到,所以我们没有办法让负例来参加我们的训练,那么我们的模型就会有偏,所以准确率就会下降。
这就是说,我们过去说“失败时成功之母”, 在这里我们应该反过来说:成功是失败之母。在模型成功的时候,就孕育着失败; 当失败多了以后,有足够多的负例,我们就会迎来新的成功。这种不断的学习,是对终生学习的一种挑战。
在这个方面,我们也在进行各种研究。比如:利用强化学习和深度学习相结合,根据用户眼下可以进行的点击,同时也根据用户在无限扩展的多步以后可能点击的广告的收益,来共同来建立这样的一个行为的规划模型。
接下来我要讲的是“智能”为互联网+带来的另外一种改变,就是:我们过去在模型的建立上面下很多功夫。 但是在互联网+和传统行业对接的时候, 我们更应该到在“特征工程”上面下功夫。 这种从“模型” 到“特征”的转变,是“+智能”的一个重要转折点。
比如:在图像识别领域准确率的提供,实际上是人们在特征工程的一种成功。这里来举一个在金融领域的例子。 这个大数据公司叫“第四范式”公司,他们为传统企业提供大数据的服务。以金融行业为例。 在金融产业有无数的用户,他们可能对某种产品有兴趣, 而金融领域的客户经理,如何把正确的产品推荐给正确的客户,就是一个典型的业务问题。 有了金融大数据以后, 这个问题就可以用机器学习来做了。
比如, 在银行的分期付款这个问题上, 对于某一个产品的购买者,到底应不应该推送分期付款的短信,应该提供什么样的建议,以及在什么场合,以什么方式来推送? 这些问题的解决取决于能不能从用户和产品的数据中抽取大量的特征。过去利用人工, 金融行业可以建立几十维特征的模型。
现在利用大数据, 这个第四范式公司建立的上百万维的特征模型,和以前相比,有了68%这么多的提高,带来的是大幅提高的收益。
这个是得益于什么呢?得益于特征的增加。另外一个方面,虽然模型的特征增加了,但是并不表明模型的可解释性减低了。我们可以在一个复杂的,上百万为特征的模型上,建立一个像决策树这样的一个简单的可解释模型,让这个决策树去模拟复杂的模型。在他们两个模拟结果非常相近的情况下,我们就可以得到一个可以对专家解释的模型, 这个模型被金融专家接受的可能性也大大增加。
所以,互联网+为我们带来了大数据,而大数据又为我们带来了智能的可能性。 通过“群体智能”,“终生学习”和“特征工程”,大数据让传统的服务变成又智能的服务。 这也是我们所倡导的“+智能”的精髓。这种“深度+”是通过大数据来产生的,具有领域知识的、 有群体智能,终生学习,特征工程的“+”。



【战略前沿技术】一网打尽系列陆续推出,请回复以下关键词查看相关文章:
回复“谷歌”或“google”,查阅“google创新”专题系列文章;回复“工业4.0”或“industry”,查阅“工业4.0”专题系列文章;回复“神盾”或“DARPA”,查阅“美国高级研究计划局DARPA”专题系列文章;

回复“颠覆”或“distructive",查看“智库建设”专题系列文章;

回复“3D”或“4D”,查阅“3D打印”与”4D打印“专题系列文章;
回复“硅谷”或“silicon”,查阅“硅谷”专题系列文章;回复“石墨烯”或“graphene",查阅“石墨烯”专题系列文章;回复“智能制造”或“inte manu”,查阅“智能制造”专题系列文章;回复“智能”或“intelligence",查阅“人工智能”专题系列文章;回复“军民”或“integration",查阅“军民融合”专题系列文章;回复“激光”或“laser",查阅“激光武器”专题系列文章;回复“智库”或“tank",查阅“智库建设”专题系列文章;

其他主题系列陆续整理中,敬请期待……


【战略前沿技术】2014-2015年历史文章目录已上线,回复“目录”即可查看,敬请关注!

【战略前沿技术】已开通原创、评论以及对原创作品的打赏功能

欢迎评论:对于文章有任何问题和看法,请移步文末进行吐槽和评论!

欢迎投稿:对于原创性作品将优先发表,并将获得读者打赏的全部!

欢迎打赏:请对原创作品随意和任性打赏,打赏将全部归作者所有!


【战略前沿技术】
引领科技创新发展
1

微信公众号:tech999

个人微信号:tech9999

邮箱:2669537857@qq.com

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存