查看原文
其他

【专家观点】李德毅院士:大数据认知(附报告全文)

2015-08-15 战略前沿技术

2015年8月14日,由中国科协、中国科学院指导,中国人工智能学会发起主办的第五届中国智能产业高峰论坛在上海长荣桂冠酒店顺利召开。


中国工程院院士、中国人工智能学会理事长李德毅



摘要

人类走过了几千年的实验科学,几百年的理论科学、几十年的计算科学之后,迎来了数据密集型科学的新时代。对于老一辈科学家来说,大数据的挑战对于科学里面的震撼是地动山摇的。这么大数据不应用,怎么办?


认知科学跟人工智能是什么关系?我们争取在这个问题得到一些认识。



以下是报告全文:


认知科学跟人工智能是什么关系?我们争取在这个问题得到一些认识。


一、大数据认知的方法学


人工智能最重要的就是知识表示,或者叫知识认知的形式化。我们有一个教授做一个很有意思的工作,把李白的所有诗1001首碎片化,变成了小数据。通过这个例子告诉大家,数字是不同于物质和能量之外的人类的资产,数据就是新时代的石油。


小米雷军的英语大家笑。笑什么呢?语法是对的,语境不对。我在10几年前曾经带过一个学生,做过一个“野蛮翻译”的硕士论文。大数据的认知方法告诉我们,要重新思考是先有语言学还是先有语言,翻译问题能不能形式化?我是83年在英国拿到博士学位,84年被邀请到日本研究古埃及的语言。


谷歌的成功主要是大数据下的搜索引擎和排序算法,充分利用了群体智能的数据。各种语言之间的转换服务,每天超过10亿次,使用人数每月超过5亿人。谷歌眼镜可用7种语言对图表或菜单进行即刻的逼真翻译。为什么可以做到这样?对话模式由32种语言的翻译机器人来回沟通,大数据造就了高度准确的自动实时翻译和自学习。这一点是值得我们人工智能学者深思的。


我们一直喜欢用DNA检测,将来人连识别、说话人识别,可以变得如此方便。我们用科大讯飞的语音解说中国人工智能大会,我们发现一个已经退休了的李瑞英女士在为我们做广播。


这就是大数据的力量。


所以从大数据的成功运用反思日本五代机的失败,值得我们思考。今年IEEE国际数据工程大会上有一个很大的争论终于得到的回答,是继续构建通用数据库系统,还是构建特定负载面向特定目标的系统?作者支持后者,所以我们一定要把大数据的资产用好。我们要不但享受互联网带来的方便,还要包含区别于物质的数据资源的价值发现和价值转换,这里面人工智能起着很大的作用。


大数据已经成为网络时代人类社会的重要资产,今天,移动互联网支撑的手机可以低价或者免费,如小米手机:明天,物联网支撑的空调机、电视机是否可以低价或者免费?后天,家装、家居、汽车、家庭服务机器人等是否可以低价或者出租或者免费?为什么一个人要买一个车呢?有的人一个人还买两部车,多占地方啊?


手机、电视机、汽车和聊天机器人等作为传感器,为互联网商提供源源不断的大数据资产。大数据本身,既不是科学也不是技术,是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,以三个数据级的阶梯迅速发展。


聚类是大数据使用的一个突破口。我觉得我们要研究聚类。


人类走过了几千年的实验科学,几百年的理论科学、几十年的计算科学之后,迎来了数据密集型科学的新时代。对于老一辈科学家来说,大数据的挑战对于科学里面的震撼是地动山摇的。这么大数据不应用,怎么办?

我们是个产业会,智能产业论坛。我们讲一个保险公司在大数据面前,应该怎样改变他的运行方式?保险,尤其是车险,传统的是分为ABCD类。经常出车祸,保险费就要高一些。


但是随着汽车成为双驾双控轮式机器人,成为大数据发生器以后,每一次驾驶,每一次维修,每一次行程,甚至每一次刹车,都记录在案,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低、不勤开车的特定客户,给予更大优惠,而对风险太高的客户报高价甚至拒绝。大数据聚类成为保险公司的核心竞争力,精细化的为个性化服务。


刷脸是人的身份识别的一个方法,人们要求要识别这张脸。奥巴马这张脸从几何结构上分成1-10个尺寸的话,这样的翻译方式做起来太繁琐,所以我们做云计算的时候是去ROE时代。结构化人脸大数据聚类的局限性,本质上仅仅是几何结构的聚类及忽略了聚类的不确定性、多样性、过程中简单的群体交互性、据类样本的可获得性,结果的评价标准、群体认知的共性,尤其是表情、年龄、肤色、基因、性别、因缘等太多因素。所以我说,智能产业界的朋友们,如果你们能够把一个全家福里面找到儿媳妇或者女婿来,我觉得这个产业就能赚钱。网上一大堆全家福,哪一个是儿媳妇,哪一个是女婿能找出来吗?


如果说几千年、几百年、几十年的科学主要靠天才归纳而成的话,那叫大定律、大模型、小数据。我记得我大学毕业把我分在哪儿呢?外部设备组,就是做输入输出。现在改叫交互,后来又进一步改了叫沟通。我认为大数据给我们提出一个新的形式化的认知学方法,就是小模型、大数据。模型要围绕数据转,所以我说:这个改变是地动山摇的。


公理、模型、程序要围绕数据传,形成数据定义的系统。


所谓“创新”在大数据时代就是要靠数据说话,要更多的依赖大数据,这些数据常常是交叉的,因此体现在交叉理论框架下建立的。如果说物理学和化学是传统科学,也许我们可以研究物理化学,那里更有可创新的地方。要学会理解程序和模型怎么围绕数据转,要研究基于统计的可变视角和可变尺度。


二、云机器人认知


今天透露一个我个人的学术观点,我们现在研究的重点,我想大家可以研究一下“云机器人”。机器人与人,可以形似神不似,也可能神似形不似,当前应该更多研发的不是人型机器人,而是神似形不类的云机器人。


云机器人依托云技术优势,重认知,体现在端设备上是感知和行动。先研发预言和图象丰富、认知复杂、动作相对简单的特定认知域的云机器人,如导航机器人,其智商和情商容易取得小众的共识。研发云机器人成为大数据认知的又一个突破口。


我在深圳买过两个扫地机器人,到家用了不到一个月就散了,但是我现在买了一个日本的一万多块钱的,用了很长时间。


如果我们的语言、文本、歌曲、剧本可以通过虚拟形象变成形象、情感、动作、语音、语调、风格的话,我们还可以研究一个林志玲、郭德纲同台的导航板。


利用云+端的形态和深度学习,涌现出太多的云机器人雏形,它们和自然人相比神似形不似,太多的记忆认知和计算认知可从云上获得,当前的感知、交互、认知、行为控制和协调在端上,有自主学习和主动寻求帮助的能力,能够满足移动生活中的人群对特定领域工作的机器人的迫切需求。


假如我人到这个机器人面前参观了,我说:“我明天想买一部小米手机。”这个聊天机器人怎么讲?说:还是买进口的。你会大吃一惊。啊,这个机器人还知道小米是国产的。假如人说:“我明天想买一部小米手机。”机器人回答:“找你妈要钱去。”这是一个什么场景啊?我们搞自然语音理解和语音翻译的人,以前太多的重视了语法和语构,我们忽视了语境和语用。


在云计算数据中心,用成千上万台的CPU+GPU服务器架构,通过大数据样本做混合的大规模深度学习的并行训练,可确定几十亿个参数的人工神经。成为人工智能又一大亮点。我认为深度学习吸收了云计算和大数据的红利。


我个人认为深度学习实际上是一套灵活的、复杂而又简单的形式化模型框架,依靠不同深度的神经网络中的大量参数的确定去处理不同的问题,参数量可高达十几亿个,参数的精度靠大数据量训练得以保证,适合端到端的学习。


深度学习以卷积神经网络(CNN)为代表,相比早先的浅学习,它不但可以从局部到全局提取不同层次的特征参数,还可以利用卷积的微分性质通过改变卷积核在更高阶上提取特征参数,是抽象认知能力的提升,而不仅仅是神经网络的宽度——神经元数目的增加。


FT跟GT卷积的微分等于其中一个函数的微分跟另一个函数的卷积,因此对于原始图象的微分就很难。


互联网、云计算、物联网和大数据可以有力支撑云机器人如何听说、如何看、如何想,而解决机器人如何动作的“智能制造2025”迎来了我国机器人的春天。我们希望我国的制造业在赶快跨过3.0,走向4.0。


如果北京市80万个摄象头都变成“摄象头+固化芯片”,把路口简单的摄象头改成路口机器人交警,只要限号开车,压线就扣你分、罚你的款。产业界的朋友们,为什么不做这件事情呢?何况我们国家不是一个北京啊。如果我们把高德导航机器人变成一个聊天机器人,变成一个导游机器人多好啊。我们的汽车无人驾驶,你喝醉酒了,让机器人代驾。你不会开车,让机器人变成教练机器人,还可以做交通事故仲裁机器人。我们还可以做特种车辆服务机器人,所以我认为智能产业有着巨大的创新空间。


如果我们解决了驾驶问题,坐在车里可以享受移动生活,孩子们可以在移动的状态下跟高考辅导聊天机器人聊天,我们喜欢诗人汪国真,我们编个机器诗人汪国真,喜欢邓丽君的歌声,我们编个歌手邓丽君。手语交互机器人和痴呆症患者聊天的机器人。


如果这样做下去的话,我们的机器人虚拟教师,搞翻译的都会失业,真的机器人换人的时代到来了。


三、大数据认知的实践


这一篇我就不讲了,8月28号我们要在郑州集聚7辆车,从郑州到开封做一次无人驾驶实验。我们利用导航设备和记忆认知实现了路口的记忆,保证郑州到开封27个路口怎么过。我们想做一次实验,有兴趣的朋友们,欢迎你们8月20几号郑州相见。


我就讲这么多。


报告后,现场参会代表积极提问,与李院士展开了热烈的探讨。

[李德毅与现场听众互动环节。]


问:刚才你列举的这些领域里面,我们还需要做到?


李德毅:这个就是无人驾驶客车演示。好,你说。


问:我们还需要做哪些工作才能收集到我们所需要的大数据?


李德毅:我就讲一讲我自己的体会吧。我家在北京市万荣路,万荣路是个十字路口。几乎世界上没有两个路口是完全相同的,万荣路口对于我来说太熟悉了。一个人真正开着车,他这辆车走过的道路是80%的时间走在20%的道路上。所以对于我们来说,我们先把万荣路口的小数据解决。但是你知道一辆车是小数据,那么多辆车就是大数据了。所以我认为,对于大数据,还是要从小数据建立起。


科大讯飞告诉我,说:做一个0-1的语音。先把我在网上的语音碎片化,但是要我学习、训练三个月。我认为是这样的功能,而不是拿个大耙子,那是不行的。所以对于大数据,我们的认知刚刚开始。


问:所以大数据的收集要有目的性的收集?


李德毅:对,这句话非常重要。


科大讯飞 胡郁:刚刚你讲的机器人的事情,我有一点点不太认可。你说,把摄象头都变成机器人。但是有一个问题,这些机器人只能在数字化的虚拟里面发现问题,比如:有人闯红灯了,原来有交警是可以处理。但是现在只有机器人,是没有办法处理肇事车辆的。所以我们今天是不是过多的考虑虚拟的东西,而我们要进入到真实的世界,就像您刚才说的智能驾驶汽车这方面也需要加强。不知道您是怎么看这个问题。


李德毅:美国工程院有一篇文章,告诫科学家“要多做实践中的研究,少做研究中的实践。”我不认为机器人仅仅是做虚拟的数据,不是这样的。现在的问题是,你要用周边的大数据,这些大数据是生动活泼的大数据。我刚才讲把一个摄象头换成一个交警机器人,我是说作为一个特定问题的交警,仅仅观察压线和车牌号。如果解决了一个特定问题,两个特定问题,三个特定问题,解决了千千万万个特定问题之后,再通过云技术、物联网加在一起,这些人的综合也许可以变成一个人工生物脑的智能。


问:如果一个人过马路是用机器反应的话,是非常慢的,会不会有撞车的可能性。


李德毅:智能车当今很红火。我现在正在做一个“智能驾驶评估”:1.智能车电磁频谱兼容性评估。2.智能车架构开放性评估。3.模块的独立性评估。4.驾驶智能鲁棒性评估。5.人机交互友好性评估。6.智能车自学习能力评估。


(来源:中国人工智能学会,微信公众号:CAAI-1981,作者:李德毅)



【战略前沿技术】
引领科技创新发展
1

微信公众号:tech999

个人微信号:tech9999

邮箱:2669537857@qq.com


【战略前沿技术】2014-2015年历史文章目录已上线,回复“目录”即可查看,敬请关注!

【战略前沿技术】已开通原创、评论以及对原创作品的打赏功能

欢迎评论:对于文章有任何问题和看法,请移步文末进行吐槽和评论!

欢迎投稿:对于原创性作品将优先发表,并将获得读者打赏的全部!

欢迎打赏:请对原创作品随意和任性打赏,打赏将全部归作者所有!

2015年5月十篇精华文章(按阅读量排名)

请关注后【战略前沿技术】后,点击历史信息或回复201505查看。2015年1-4月精华文章,请分别回复201501、201502、201503、201504查看。

日期标题

20150525

数学大师丘成桐:中国的科技至少要倒退20年

20150516

中国工程院院士增选有效候选人名单公布

20150516

真正的黑科技,你绝没见过的无人机应用

20150503

未来的战争:德国工业4.0与中国制造2025

20150508

科研经费管理新规:劳务费从15%变为上不封顶

20150525

北斗的复仇

20150517

2025年的世界:对未来十年的8个预言

20150523

大学之癌——有的教授他是官

20150529

华为是如何创新的?

20150509

发达国家发展工业机器人的主要做法和启示


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存