智能的世界:物联网,大数据,到人工智能
以下是墨子沙龙“AI·未来”活动(2020年9月26日)李向阳教授的报告视频和内容。
今天我演讲的主题是:“智能的世界——物联网、大数据,到人工智能”。
卢浮宫很多人都非常熟悉,可能很多人都去过,非常漂亮。卢浮宫里面,最有名的一幅藏画是《蒙娜丽莎》,当然还有很多其他的藏品。但是,今天我想给大家讲的是另外一个作品——雕塑“菲迪皮德斯”。
古希腊时期,菲迪皮德斯为了把马拉松战役取得胜利的消息传递回去,最后因为跑得太快而去世了。他为了传递一个比特的信息,付出了生命的代价,所以现在这一页ppt的标题是“生死攸关——比特”。
这么多年来,我们人类一直在关注怎么去进行信息的采集、传输、计算,以至于生成知识和获得智能,这最后一点也就是最近我们大家都在讲的人工智能(AI)浪潮。
人工智能已经经历了很多的浪潮,现在主要是由AlphaGo引起的第三波浪潮。深度学习技术在围棋领域第一次实现了机器对人类的全面胜利。除了下棋以外,在其他一些领域,我觉得人工智能也已经做得非常好。当然还有很多事情,可能对人来说非常简单,但对机器却非常难,比如说,看图说话。根据一副图去写一些话或者写一个故事,这对机器来说就非常难了。
整个人工智能离不开我们经常讲的ABCDE。A是算法(Algorithm),B是大数据(Big data),C是计算(Computing),D是领域知识(Domain knowledge),还有E是指生态(Echo system)生态。
总的来说,现在的深度学习是一种基于数据的一些统计规律的学习,但数据从哪里来?基本上都是来自物联网设备(比如各种摄像头等等)采集得到的各种数据,基于此我们对所处的物理世界有一个深度的了解。
所以,今天的内容主要分为三个部分:智能物联网、大数据和人工智能。
从物理的世界到我们人造的一些设备的世界,我们的世界非常丰富多彩,文明是人、社会与物理世界的有机融合。在人、物理世界和社会的有机融合的时候,我们需要解决很多问题,包括环保、灾害、安全等等方面。当然有很多方法,但最主要的方式可能是要通过一些设备和方法来对事件进行感知、预判,精确地来了解我们的世界。
总的来说,我们需要对我们的世界更透彻的感知,更全面的互联互通。物联网(Artificial Intelligence & Internet of Things,AIoT)作为信息系统向物理世界的延伸,它极大地拓展了我们人类认识世界、改变世界的能力。物联网是信息技术的第三次革命浪潮。
到底什么是物联网?或者什么是智能物联网?基本上可以从三个层面来看:普通对象设备化、自治终端互联化和普适服务智能化。第一是普通对象设备化,就是对任何东西都赋予它一些智能,使其变成一种感知设备。第二是自治终端互联化,即任何设备都是互联的,建构一个万物互联的世界。第三是普适服务智能化,即所有的服务都是有智能的。
总的来说,物联网是一个基于互联网、传统电信网等信息承载体,让所有能够被独立寻址的普通物理对象实现互联互通的网络,并提供智能服务的载体。智能物联网到现在,经历了大概几十年的发展,现在已经非常普及。可能很多东西平常大家没有感觉到,但实际上智能物联网都在身边。
智能物联网也是一种今天和明天的技术,在之前的七八年大家更多在谈人工智能,可能下一步真正能够落地的是人工智能物联网,是基于设备、基于行业的一种智能技术。智能物联网以物联网、互联网、大数据、人工智能融合创新,来引领我们未来的产业发展。
物联网方面主要面对三个挑战,也是物联网的三个核心:感、传、算。
首先我们得有个东西去了解我们的世界,也就是感知技术。人感知世界的方法主要有视觉、听觉、触觉、嗅觉和味觉。机器怎么去感知?我们会利用各种信号,比如无线信号等等,并借助一些智能的推理方法,来获取物理世界的一些信息,比如人员是否存在、如何运动,他的行为、思想状态、物体的状态等等各种不同的信息。感知的方法有很多,比如我们经常见的振动传感器、加速度陀螺仪、光传感器、视觉方法、声音、无线信号等等,都可以用来感知、理解我们的世界。
第二,得把感知到的内容传回来,这就是传。第三,要对传过来的信息进行处理,即要做计算功能。当然所有东西都必须要有能量来支撑。所以总的来说,物联网是感、传、算以及能量四个方面来组成。不同设备的形式不太一样,但总的来说离不开这四部分的东西。
物联网现在遇到的困境或者困局是:很多时候大家发觉容易感知的信息难以传输,而易传输的信息难以感知。比如高精度视频,这很容易感知,但是高清视频耗传输带宽太大,很多设备可能没有能力将其传回。另外还有些东西可能容易传输,比如说你今天高兴不高兴,你今天到底什么样的语气、心情,你是什么感情,这很容易传输,信息量不大,但不容易感知。
传输、感知之间往往有这种不对称、不协调的情况。当然所谓的难和易也依赖许多限制条件,所以说难易也是一个相对的概念,比如你到底要什么设备,是不是有能量等等。但总的来说,感知和传输有这样的一个困局。比如现在所有人都有手机,为什么现在智能手机这么好用,当然除了系统做得好以外,离不开硬件能力的提升。比如说一个苹果或者华为手机等,它里面有很多传感器——光照、加速度陀螺仪、距离感知等等,可以了解很多信息。
当然手机里面,传感器肯定是越来越多,可以测量的东西也越来越多,但是还有一个困境:如何以有限的感知来感知一个无限可能的世界?这个手机再怎么能装东西,它的体积也是有限的,但我们要了解的东西是非常多的,所以有这样一个挑战——如何以有限感知的设备和能力来了解无限可能的世界。
要破局,有很多方法,比如说无感而感,即可能没有这样的设备,但我想做这样的能力。第二种跨域感知,比如有很多各种设备,每个都拿到了部分的信息,就像盲人摸象一样,我们可以通过跨域感知来了解全局信息。第三种深度感知,可能使用以前的方法也拿到了很多信息,但分析不透彻,利用现有技术把信息进行深度挖掘,可以获得更多的信息。
下面简单汇报一下,目前在我们这一行业里面和学术界里的部分成果,以及我们如何去识别一些可能看上去不太可能的事情。我讲一个例子,这是我们跟一些企业合作做的一个智能手表/手环,可以进行手语识别【建议观看文前视频】。目前全中国有一两千万聋哑人,对于这些 在交互方面有障碍的人群,如何给他们一种跟外界做交互的能力呢?我们通过给他们戴上一个智能手表,也就是普通的穿戴式手表,可以在他打手语的时候,对手语进行识别从而实现交互。
另外除了实现这个行为的识别,微动作的识别以外,甚至我们可以拿手机测你的心跳,比如说拿一个手机在手上,或者放在口袋里,就可以测出你的心跳。这些都是通过一些跨域感知实现的。
我再讲一个故事——没有电池的感知。在历史上有一个很有名的事情叫Great Seal Bug (The Thing),发生在二战时期,苏联送给美国大使馆一个木头雕制的美国国鸟雕塑。美国人做了很多检查,发现没什么问题,就放到了他们大使馆。一放就放了好几年,大概在七年后,据说是一个英国大使馆的小伙子调收音机,说怎么听到了美国大使馆的人在说话。然后就去查,第一次没查出来,最后把这个雕塑卸开以后,发现里面有一根大概20多厘米的铁针。这是我们人类历史上第一次做的一个没有电池但可以感知周围声音的设备,很奇妙。
它的基本的原理是,人们说话的时候会有声波振动,振动会引起周围无线信号的一些变化。铁针通过外面传播给它的能量,从而产生一些微小的振动,通过反射回去的能量可以恢复人的声音。基于这方面的技术,在1971年,Mario Cardull发明了Radio Frequency Identification技术,简称“RFID技术”。他做了一个没有电池的小天线,通过另外一个读写器,发射能量打在天线上返回,就可以获取很多信息。
RFID现在使用的很多,有很多不同的技术,有无源、有源,比如我们现在拿的好多卡。还有,到食堂吃饭,有的碗上就带RIFD,不需要看什么菜,只要盘子放到对应区域就可以知道具体价格。当然不同的技术可以实现的读写器和标签距离也不同,最远可能达到几十米到上百米,但通常情况下大概二十米左右的距离。RFID一般应用于仓储管理,比如像沃尔玛很多设备上都有标签。在二维码时代每件设备都需要手动扫描,但通过RFID标签,可以实现远距离、大批量的设备识别,大大提高了效率。但同时RFID目前也存在一些挑战,如漏读等。
如果未来能把定位的距离精度提高到10-15厘米左右或者10厘米以内,我们可以实现很多有趣的应用。比如一位MIT老师做的一个应用:将每个商品贴上RFID标签,顾客将商品放入购物车中,同时顾客钱包中装有RFID的银行卡,通过距离的关系,可以识别出购物车中的商品是顾客购买的物品,就可以直接自动付款,从而实现顾客在超市不再需要排队等待结账。这个技术极大提高了我们的效率。
如果再前进一小步,把RFID定位精度提高到1厘米甚至1毫米,又会怎么样?目前我们在实验室能够做到毫米级的轨迹跟踪,我们称之为“RIFD标签的高精度定位和跟踪”。
举个例子,比如机场中的行李分拣。一般行李分拣有两种方式,一种是由人力扫码进行分拣,但使用人力就容易出错;另外一种是目前在海外有使用的自动行李分拣机器,一台机器需要成千上亿元,价格十分昂贵,但不容易出错。通过RIFD标签的高精度定位,就不再需要人去进行一个个扫码分拣,它会自动告诉你哪个箱子该放到哪个飞机。
此外也可以应用于检测高速运转物体的转速,从而得出机器是否工作正常。这种检测主要有两种方法,第一种是把标签贴在物体上跟踪物体,本质上是跟踪标签。但很多应用情况下,无法给物体贴标签。第二种就是针对没有标签的物体如何来做高精度的定位和跟踪。比如,隔墙无标签物的轨迹识别和高速运转物体轨迹识别以及振动设备识别。
以上讲述的应用看起来十分奇妙,但实际上原理并不是很难。基本原理是在一个空间中放置一些天线,利用这些天线接收无线信号,当物体在空间运动的时候,通过不断的读写RFID标签反馈的信息,根据标签反馈过来的信号强度,或者信号的相位和时间的信息,再利用信号打到物体上产生的反射信号的相位跟反射距离和波长的公式,很容易得出物体的位置信息。
目前这部分的研究主要有两大挑战。首先是设备的测量相位精度较低,设备相位精度影响定位精度,目前在理论上可以做到10^(-2)毫米级别的定位精度,但实际上还做不到。另外一点,由于相位跟波长成反比,所以波长越长,相位精度越高。如果可以利用高频小波长电磁波那么就可以实现更精确的定位和更好的感知。
另外一种是深度学习。因为现在模型太复杂,且噪音等影响因素很多,可以通过一些深度学习的方法来提高感知能力。比如标签,我们形成一种能量的时空谱,将时空谱放到深度学习模型里面去做一些判断识别;比如运动,也可以建立时空的能量谱,用深度学习模型来判别这个人到底在做什么动作。即,可以用深度学习去解决在物理模型上有噪音的问题,也可以做很多智能的跨域感知。
美国一些学者做了这样的实验:根据拍摄的无声视频,根据你的脸我就知道你的身体状况,比如你的心跳等。类似工作我们自己也有做,比如学生在图书馆,我只拍他的桌面,没拍他的电脑,我就能知道他在电脑上打什么字,单个字大概能到50%的准确率,对于一个句子,则有99%的准确率。它的原理很简单,因为敲键盘的时候,键盘在振动,桌面也在振动,根据桌面的振动规律,可以反推你在打什么字。
以上讲的是感知,另外一个主题是怎么去做互联。我们在很多场景下遇到能量的瓶颈。很多时候我们的设备可以用电池或者接电源,但也有很多时候,不方便甚至无法使用或更换电源。比如我们在无锡做的一个特别耗电的二氧化碳传感器系统,一个五号电池仅能用几个小时,但在很多场景下,不能老去换电池。再比如说做人体的一些检测,需要让人把一个东西吞下去,以色列就做了个可以做感知的药丸儿,但是却不能吞个电池下去,这有点危险。
所以这种情况下,怎么解决电池供电的瓶颈?需要一些新的能量获取与网络模式,来克服传统的一些解决不了的场景。比如在低功耗、无源通讯网络上(美国和我们都在做),刚才讲的RFID标签,一方是没电池,一方有电,通过打过去反射回来,可以去感知信息。
那么是不是有可能让两个都没有电源的设备来进行通信呢?大家觉得这很奇妙,实际上是可以的。比如说有一个设备Alice,想发射一个信号给Bob。Alice发射信号给Bob的时候,她自己没有能量是无法完成的。但如果真的是完全没有能量,是违背物理规律的,因为可以反射周围如电视塔或者wireless AP的能量。因此如果我想通信,我就给你反射一下,相当于告诉你我在给你发一个东西。对Bob来讲,若要知道Alice在不在发信号,就必须知道她是不是反射东西给了自己。而判断是不是反射,则根据统计规律:当对方不发射信号时,通常收到能量只能来源于电视塔,这可能是一个统计的规律。一旦有反射信号,统计规律会相应变化,就知道对方给自己发信号了。通过这样一个简单的是不是反射和统计规律的发现,就可以传递信息。但双方都没有电池、没有电源,都是通过捕获在世界里无处不在的能量来进行通信和计算的。
反射通信方法——利用周围无处不在的无线信号能量
下面是一个简单的视频(建议观看文前视频),是我们实验室做的一个没有电池但可以打电话的手机。
我们必须要非常低功耗的摄像头,不是数字信号,是模拟信号的摄像头,因为它能量很低才行。通过反射周围的无线信号,可以把视频传回来。在我们实验室,一米左右大概能传到1.8Mbps,十几米的时候能传到700Kbps多。这在很多场景下都有用处。
我们在采集了数据以后,这些数据到底该怎么办?现在很热的一个方向叫“大数据”。首先回忆一下人类科研的四大范式:
(1)第一种是实验范式,比如伽利略爬上比萨斜塔做了个实验,去发现一些规律。
(2)第二种是理论范式,比如牛顿和爱因斯坦不做实验,给出一些理论。
(3)第三种是仿真范式,是近100年出现的第三种范式。可能理论上有些东西,但跟实际可能有一些误差,自从人类有了计算机以后,可做计算机的模拟。我在美国读博的时候,是做火箭的,但不能说做火箭的时候去试一下,因为每次发火箭的成本太高,因此只能做模拟,这叫仿真范式。
(4)第四种是数据范式,出现在近二三十年。1998年图灵奖获得者吉姆·格雷在Microsoft提出数据范式。通过统计各种数据,从数据当中发现规律。
那么到底什么是大数据?第一,数据要多;第二,数据要快速的处理;第三,数据的种类很多;第四,数据实际上很多时候且大部分是没有用的,我们要在沙里淘金,甚至淘都不太够,要琢,要真的用放大镜才能发现有用的东西。
大数据确实很有用,未来学家托夫勒就说过,改变世界有四大东西:第一是暴力,战争是改变人类走向的力量;第二是知识,我们经常讲知识改变命运;第三是金钱,它可以改变世界。第四,最重要的,他认为大数据是第四种改变世界的力量。
数据在很多方面有很多的应用,例如:(1)大数据用在健康,尤其是个性化的健康医疗服务上;(2)个性化的教育上,由于疫情的影响,将来线上线下结合的教育可能会非常普及。大数据、物联网、人工智能在教育领域有很大的市场。(3)在社会科学上,像奥巴马或特朗普的竞选,都用了很多大数据来辅助他们的竞选。(4)现在也可以利用大数据做文学创作,大数据学习自动写稿子、写评论。(5)影视娱乐,比如《纸牌屋》电影,它就用了很好的大数据分析,分析选演员、写剧情、什么时间去放,效果最好。(6)城市交通,比如阿里在杭州做的指挥交通等,都是用大数据来做一些智能推断。(7)大数据用于个性化的广告上,比如蚂蚁金服。前两天我在蚂蚁金服开会,他们用的最多的就是怎么根据企业个人精准的画像,做最好的个性化服务。再比如腾讯游戏,很多广告都是基于一个很大的领域,叫计算经济学,它的基础是大数据。
但是大数据还有很多挑战与困局。随着日益普及的物联网设备,产生了很多数据,几年后可能要将近180 ZB,但其中非结构化数据,即音频、视频等等将超过80%。这些数据对我们隐私保护带来巨大挑战。如果数据安全隐私没做好,所有的都是空中楼阁,很容易出问题。但为什么安全隐私比较严重,是因为数据孤岛现象很厉害,很多个人和企业都拥有各自的数据,但数据不能流通。
那么怎么去解决让数据不可见,但数据价值可用呢?我们经常讲data invisible but available,怎么去实现这样的功能,数据隔离已经成为智能要发展的一个大瓶颈。我们需要一些交叉的学科,比如计算科学、经济学、数据科学、法律法规等,大家一起来让数据真正能成为21世纪的石油,真的流通起来。但流通不是一定要数据流通,而是真正让数据价值流通起来。
看一下互联网上那只“狗”,是皮特在课上画的很有名的漫画——在网上没人知道你是一只狗。刚开始的网络只提供互联的服务,但是它是连接机器,不关心机器后面你是男人、女人、小孩子、老人还是一只狗。这是刚开始的概念。
《纽约客》彼得·施泰纳(Peter Steiner)
但是现在随着搜索技术、大数据技术的发展,我们可以做人物的精准画像,“狗”无处可藏。人家知道是一只狗,在后面敲键盘。但是现在随着技术的发展和个体意识、隐私保护需求的增长,数据我们希望可用,但不可见,我们更需要价值和服务。你不应该知道我是一只狗,虽然我是一只狗,但你不应该知道。所以我觉得整个人类的技术发展,是三个不同的阶段:刚开始不知道,到后来可以精准地知道,再后来你不应当知道。
总的来说,大数据在未来必须和人工智能深度结合,即A(Algorithm)、B(Big data)、C(Computation)和人工智能深度结合起来。
图灵有很多有名的事情,他在1950年提出了图灵测试:如果一台机器能够与人类展开对话,不是见面的,我们不能辨别出来其机器身份,那么这台机器就算有了智能。也就是一个机器在跟另外一个东西交互的时候,或者人跟机器在交互的时候,我不知道对方到底是人还是机器,那这个机器就算有了智能。这就是一个很典型的图灵测试。
在1956年有十个很有名的科学家,他们当时在美国的达特茅斯开会,第一次提出了Artificial Intelligence,研究人工智能的概念。这个照片很有名,大家后来都拿了图灵奖,其中有一位先生拿了图灵奖和诺贝尔奖。
人工智能经历了好几次浪潮。人类的发展真的是一个轮回,技术也是有轮回的。人工智能第一次浪潮是在1970年,第一次黄金期。第二次主要是1990年左右,日本当时提出来做第五代计算机,做人工智能的东西,但后来因为很多能力跟不上而终止了。所以我们经常讲做事情太前太后都不好,太前就是长江后浪推前浪,前浪死在沙滩上。人工智能当时提了很多理念,很先进,但是很多东西没跟上,所以就死掉了。第三次浪潮,随着计算、数据等等技术的发展,推动了我们第三次人工智能的发展,很多技术理论在20多年前、30年前都已经有了,只是把这些理论在新的能力下真正开花结果而已。
到底现在是不是人工智能爆发的前夜?现在国家有很多人工智能公司,但说心里话,可能这一两年很多公司会很艰难。“深蓝”1997年第一次交手便战胜了人类最好的棋手卡斯巴罗夫。国际象棋相对围棋来说还是比较简单的,最复杂的是麻将,什么时候机器把人类麻将给赢了,那就真厉害了。主要原因是什么?因为国际象棋也好,中国围棋也好,它是一个全领域知识都知道的,我是什么都看到,然后来做决策,但是麻将我只看到我自己的,很多信息我是不知道的,这更难一点。我们科大也做了很多工作,比如科大的佳佳机器人,以假乱真。
1997年5月“深蓝”电脑挑战卡斯巴罗夫(上);中国科大智能机器人“佳佳”(下)
除了机器人以外,也可以做一些艺术。下面这些画都是机器生成的,不是人画的。机器根据风格,可以把一张真实的照片变成一张艺术照,可以产生艺术风格的迁移等等。当然也可以有其他具体应用场景,比如女生在网上购物,可以让你知道你穿上这件连衣裙到底什么样子。这种类似于虚拟现实的一些实践,都需要人工智能技术。
人工智能在日常生活当中还有很多其他应用。比如助理,游戏语音技术,智能音箱,自动驾驶。还有医疗、智能家居、安防等等。人工智能用的最好的就在安防。现在的很多企业都在抢滩布局人工智能,当然人工智能包括很多,从底层的芯片到中间的计算,到数据,再到深层的服务框架。比如美国一些公司和国内很多公司都在做框架、做生态,都在抢滩布局人工智能,当然是在不同的层面布局。
很多国家也是竞争白日化,像中美之间竞争很激烈,最主要的当时美国出了14个禁运产品,其中有7个是跟计算机和人工智能相关的。对中国来讲,如何去做第三代人工智能,如何做自主系统,做生态、做系统,要想真正做好,我们既要拥抱开放的世界,但是还要自主。
总的来说,人工智能任重道远。人工智能有三个阶段,从运算智能,即能存会算,到感知智能,即能听会说、能看会认,到最高级阶段的认知智能,即能理解、会思考,这是人工智能三个境界。
现在基本上处在运算智能和感知智能的阶段,到认知智能还有比较远的距离。运算智能取得了很多的突破,我们现在讲的第三次浪潮基本上还在运算智能的阶段。感知智能也在慢慢的逼近和超越人类,去感知世界,做一些分析。比如在视觉、听觉、触觉等方面,能力可能在很多地方比人还厉害。在认知智能方面有很大的挑战,包括数据的瓶颈、泛化的瓶颈、能耗、语义鸿沟和可解释性、可靠性、安全性等。
万物互联时代的人工智能,我们会遐想,最好的技术不是你天天看到它,最好的技术是你天天在用,但你感觉不到它的存在。在将来,我们这个世界可能是无屏的,不像现在的电视屏幕等,而是无屏、远场、移动。在未来世界,我们如何实现一个基于智能的交互、理解、服务,而不是简单的天天敲键盘输入东西,怎么去做好相关的技术,人工智能是不是准备好了,当然还有很多的挑战。
我们人类一直在采集信息做计算,要解决三个方面的挑战:第一是感知,如何把这个世界感知得特别好,第二是计算,第三是决策。关于计算,很多机器、手机计算能力都很强,但是可能未来真正能改变人类命运的另外一个计算模式是量子计算。量子计算能力以后会非常强大,可能以前认为人工智能不可行的事情也变得可行。或者以前认为很好的事情,当有了量子计算之后变得不好——我们以前做的很多安全的方法可能在量子计算的场景下就不安全了。以前很多游戏规则,在量子计算以后可能都会改变,量子计算是改变规则的一个技术。
谢谢大家。
李向阳:现为中国科学技术大学计算机科学与技术学院教授、博士生导师、执行院长,中国科学技术大学信息与智能学部常务副部长,ACM Fellow及杰出科学家,IEEE Fellow,基金委杰出青年基金获得者,ACM中国共同主席。研究方向包括智能物联网、数据共享与计算及交易、网络安全隐私等方面,Google学术引用22000余次,H-Index 77。
由于微信公众号试行乱序推送,您可能不再能准时收到墨子沙龙的推送。为了不与小墨失散, 请将“墨子沙龙”设为星标账号,以及常点文末右下角的“在看”。
墨子沙龙是以中国先贤“墨子”命名的大型公益性科普论坛,由中国科学技术大学上海研究院主办,中国科大新创校友基金会、中国科学技术大学教育基金会、浦东新区科学技术协会、中国科学技术协会及浦东新区科技和经济委员会等协办。
墨子是我国古代著名的思想家、科学家,其思想和成就是我国早期科学萌芽的体现,“墨子沙龙”的建立,旨在传承、发扬科学传统,建设崇尚科学的社会氛围,提升公民科学素养,倡导、弘扬科学精神。科普对象为热爱科学、有探索精神和好奇心的普通公众,我们希望能让具有中学同等学力及以上的公众了解、欣赏到当下全球最尖端的科学进展、科学思想。
关于“墨子沙龙”