查看原文
其他

高文、张钹、杨强隔空论道:AI精度与隐私的博弈

CSDN App AI科技大本营 2020-12-18

出品 | AI科技大本营(ID:rgznai100)

AI时代,如何保护大众的隐私?以联邦学习为代表的AI技术能否实现AI协作,提升模型精度的同时,实现数据隐私的保护?中国如何抢占人工智能安全发展的制高点?下一个十年,人工智能又将何去何从?

近日,在“2020北京智源大会”上,就上述AI发展所存在的问题,以下AI专家从不同角度进行了讨论。

主持人:唐杰,清华大学教授、智源研究院学术副院长
              刘知远,清华大学副教授、智源学者

嘉宾

高文,中国工程院院士、智源研究院学术顾问委员会委员
张钹,中国科学院院士、智源研究院学术顾问委员会主席
杨强,香港科技大学教授、微众银行CAIO

以下为论坛实录,内容由AI科技大本营(ID:rgznai100)整理:

AI精度与隐私保护

唐杰:先从数据隐私之忧谈起,提升模型精度是否一定要牺牲隐私保护?如何在提升模型精度的同时实现智能、精度以及隐私保护?   
 
张钹:人工智能和隐私保护的关系,实际上是涉及技术和隐私保护的关系。一方面,个人的信息不被误用和滥用,这属于人工智能的制度问题。第二方面,我们怎么利用技术手段来保护个人隐私,或者团体的隐私,包括数据安全等等。
   
高文:张老师已经说得很清楚了,隐私保护和技术本身的发展关联性很强,如果隐私保护不出太多问题,不需要太多的技术来做(保护),如果隐私保护做得不好的话,就需要技术上更多的想一些办法去提供保护。隐私保护本身其实是一个社会学范畴的问题,随着圈子的扩大,隐私就越来越少了。隐私是相对的概念,在不同的圈子里,隐私可能掌握的程度是不一样的。
 
现在隐私保护比较急的是,一方面我们尽可能从技术方面能做一些贡献,同时社会的伦理方面也要尽快立法,现在也有一些,但是我认为还不够。凡是得到的数据没有经过本人的认可,把进入入商业领域,这就是犯法,如果马上就处罚,这可能就会好一点。
 
杨强:隐私的问题,一直就是人工智能的一个短板,我们看到最近大火的深度学习,尤其是离不开大数据,大数据都是通过购买和聚合不同的数据源来获得的,这或多或少会侵犯到用户隐私,所以我们看到深度学习的精度,随着数据量的增加会提高,同时对隐私的威胁也会增加。
 
近年也看到,欧洲提出GDPR,国内也有相关的数据法规。一方面,可以看到这样的隐私保护法确实为我们做人工智能和大数据提供了很多不便的地方,但同时也是个激励,来帮助我们发展下一代既能保护隐私,又能提高技术的方法。广大的人工智能研究者正在把联邦学习,还有多方安全计算,还有差分隐私等等加以聚合,形成一整套新的AI算法。
   
刘知远:针对数据隐私愈发愈烈的趋势,接下来的技术突围之道是什么,以联邦学习为代表的AI新技术,能否解决大数据AI协作与数据隐私保护之间的矛盾?这些技术的优势与局限性有哪些?如何让更多的人来参与到这些技术的创新中来,是通过开源,还是其他的激励机制?
 
高文:技术是一方面,而且用什么技术,都是可以探讨的,我比较赞成的做法,百花齐放,做隐私保护技术的,要尽他们的所能去寻找最好的技术,让隐私能够得到最好的保护。
 
另外一方面是社会的诚信,现在如果你要想整个技术和社会能够和谐的快速发展,诚信是非常重要的。我们已经进入了非常规范的发展时期,一方面是应该把个人隐私数据保护的技术发展好,同时还应该关注在我们的系统里面,对数据本身的恶用,可能也能够降低到一定的水平。
 
张钹:我非常赞成刚才高老师说的一些观点,我们必须问一个问题,为什么要去保护隐私,这个目的必须要想清楚。从西方来讲,他把隐私的问题作为一个价值观提出来,认为这是绝对的,个人信息,只要不经本人许可,任何情况下,其他人都无权收集、无权利用、无权传播。这个看起来好像很有道理,但是我觉得技术发展到今天,这个看法是不全面的。
 
比如有一条街道,可能经常会发生盗窃,发生不安全问题,我们需要装一个监控识别,来保护大家的利益,也保护个人的利益,这样来防止不安全。按照西方的观点,如果有一个用户不赞成你装,就不能装。但是按照东方人的观点来看,装不装摄像头,应该既从个人利益,也要从大众利益来考虑问题,我们国家按照东方人的价值观,觉得应该装,这对于大家是安全的。
 
装或者不装,关键的问题就在于个人的信息不要被滥用,只要保证了这一条,我觉得这样就行了,这个问题在中国来讲,就显得比较简单,在西方,就把这个问题变得非常复杂。为什么要保护隐私,这个问题想清楚了,很多问题就容易解决。

刘知远:杨强老师本身作为联邦学习代表方向的提出者,如何利用这些技术,协同大数据AI和隐私保护之间的矛盾,您有什么观点?
   
杨强:我来介绍一下联邦学习的基本思想,其实这个技术的出现,是因为多种不同技术的聚合,一种是人工智能,一种是多方安全计算,一种是加密技术,一种是大规模分布式计算。联邦学习技术推广到企业以后,假设有两个公司想合作,数据可以是两边是在做一个决策树,左边的树是在一个企业,右边的树是在另外一个企业,训练的时候,大家也是通过加密技术,自己所有的那一部分的模型,在使用的时候,比如说新的数据来了,他们也需要通过加密,或者是交互的机制,来保证能够得到信息,并且能够保护隐私,既能保证训练时的用户隐私,又能保证在inference时候的用户隐私。
 
联邦学习在各位同仁的推动下,推广到很多的算法,比如说深度学习算法、逻辑回归算法等等,有很多种现在大规模的算法,这个领域也是非常活跃的。从这个发展过程我们就可以看到,这个技术确实在近几年,发展得非常快,to C和to B两大领域都有所发展。
 
这里要提到的一点,高文院士一直倡导的人工智能技术需要开源,为什么对于联邦学习这种技术开源尤其重要呢?因为我们是需要多方协作的,协作的过程当中,每一个参与方都要保证拿到的这个软件是没有后门的,没有秘密数据隐私的渠道,最好的方法就是让大家公开,去检查开源的模型,集大众的力量来保证这个开源软件是安全的,开源和联邦学习是分不开的。
 
唐杰:您提到联邦学习要进行数据加密后,传递这个模型,那如果假设有一方把恶意的数据传递过来怎么办?怎么能保证在传递数据或者是传递模型的过程当中,不被恶意攻击呢?
 
杨强:这也是现在联邦学习的一个部分,叫对抗机制。某个参与方如果是恶意的,比如说他可以通过传递的加密参数去猜数据,同时也有可能是在数据里面搀假,加一些恶意的机制,使得总的模型的朝着对他有益的方向发展。
 
有什么办法解决呢?一个是大家可以不用差分隐私,而用比较严格的同态加密办法。第二,即使在差分隐私的情况下,噪音的加法可以用一种特别的机制来加,以至于对方是猜不透你个人所拥有的数据。所以这种破绽的发现,也激励大家去发现新的算法,应该说是道高一尺,魔高一丈,永远没有结束的那一天。
   
唐杰:还有一个问题,高老师也提到了开源的重要性,也许开源是解决隐私之道的一个办法,能在开源上多解释下吗?
   
高文:开源作为一种软件,或者是作为一种这种创造新工具的方法,非常值得推崇。前些年,软件从有拷贝开始,到现在完全开源了,开源以后并不是模型就没有了,而是转换了。现在发现,在人工智能里,经过开源,一些大公司也做得有声有色。所以在商业模型解决以后,到底哪一种方法对技术发展最有效?其实我们还是看结果。
 
从人工智能来说,开源肯定是所有方法里面,大概效率最高的一种方法。 
 
说到联邦学习,既然是在做人工智能,当然用开源的方法是比较有效的,这个逻辑关系非常简单。我很赞成杨教授说的,任何的技术不可能一下把所有的问题都解决掉,不可能把所有的弱点都提前想明白,这和对攻式的发展是一样的。也不用太担心一开始这个技术被恶用了怎么样,能恶用,就一定能想出对付恶用的方法,这样就会水涨船高的发展起来。
   
刘知远:我们知道张院士的团队开展了非常多的针对深度学习对抗攻击方面的研究,能不能请张院士分享一下关于对抗攻击在隐私保护这方面,可能存在的一些研究的课题,能分享一下您的看法吗?
   
张钹:谈到隐私保护,有两类性质的问题,一类就是如何正确、合理、公平的使用隐私的材料,这一点我是赞成必须靠个人和企业的自律来实行,也就是刚才高老师讲的诚信。因为我们对个人信息也好,或者私人拥有的数据也好,不能按照西方对隐私的定义,没有得到对本人的允许就不能用。
 
在这方面,还是回到刚才的问题,我们为什么要保护隐私?就是防止利用这些去伤害集体和个人的利益,这是一方面的问题,这个关系是非常复杂的,你可以用得很严,也可以用得很松,我们在发展的过程中,我还是赞成要逐步改进。
 
现在大家讨论另外一个层面的问题,相对讨论得比较少,但实际上是更加重要的,就是如何防止人工智能的技术被滥用,这个问题实际上目前是最严重的,因为人工智能技术本身,特别是深度学习本身,是非常不安全的,不可靠的。
 
我们必须做两个方面的工作,一方面的工作是我们要订立规则,订立严格的法律法规来限制这种行为,第二方面,要发展安全、可靠、可信和可扩展的人工智能技术,因为只有技术往这方面发展,才能真正保证人工智能的安全,这是两个性质完全不同的问题。
 
后面一个问题,我觉得是非常重要的,而且现在有的国家或集团,正在利用这个来进行国与国之间,集团与集团之间的对抗。

联邦学习与数据、隐私保护

唐杰:回到技术,其实智源人工智能研究院在开源的框架下也做了一个联邦学习平台,我们现在面临一些问题。一方面,有一些医院很愿意在联邦学习的平台上把数据共享出来,但是还有一些医院,仍然不觉得不放心,没法绕过医院的数据保密要求。从这个角度上,杨强老师能再点评或者是分享一下,你们用联邦学习平台跟大家合作的时候是怎么来解决刚才提到的这些问题?
   
杨强:不可能完全隔绝两个机构来让他们共同协作,他们之间一定是有交流的,之前这种交流直接是原始数据,现在比如说利用联邦学习,就是一些加密的模型参数。但对于行外人来说,他搞不清楚你传递的是数据还是参数。
 
这时就可以有几种不同的机制,一种机制是引入一个中间的协调机构,这个机构是大家都信任的,这种信息的传递是在每一个参与者与中心机构之间在传递。
 
一种是把区块链加进来,区块链里面有一个透明的,不可篡改的机制,这个机制如果是参与方都同意,可以把联邦学习的参数传递和区块链的透明机制结合起来加以协作。
 
另外一种是要不断地教育大众。
 
一个例子,我们在深圳有一些地产公司,非常热衷用摄像头来识别工地上有一些不安全的行为,比如说有一些工人忘记戴安全帽,一些工人在抽烟,过去的做法是把摄像头里的数据直接加以聚合,但有一个问题,在不同的工地,如果把数据传来传去,工人面部的identity就会被传走,会涉及到隐私泄露的问题。

我们跟他们做了一个联邦学习的机制,使得每个地方的模型都可以用联盟里面所有数据源的数据加以训练,模型的质量可以增长,同时隐私可以得到保护。怎么让企业主明白隐私得到保护呢?我们就可以在他们的指导下做一些实验,在他们的认可下,这个隐私是没有被泄露的,所以就有了各种各样去说服人的机制,协助我们把这个机制传播开。

唐杰:刚才提到隐私保护其实要做精度和稳定性的提升,而刚刚张院士和高院士同时都提到下一代人工智能很重要的是可解释性,如果现在隐私保护联邦学习平台,会不会把可解释性干脆变成了一个黑盒子,甚至是变成了更复杂的黑盒子,如果在联邦学习的平台上来实现的话,就很难实现下一代人工智能的鲁棒性和可解释性?
   
杨强:这个听起来,可解释性和隐私保护是矛盾的,细想一下,他们并不必要是矛盾的。我们可以保护原始的数据和模型的参数,但是模型的推理机制却可以是透明的,比如说我们一个人去看病,医生往往会给你解释这个病为什么开这个药,但是他不会跟你透露,他是从哪些案例里面得到这些信息,和在推理过程当中,用到了别人的哪些隐私信息,来使他本身得到这样的训练,这是两个不同的维度,我们可以分开。

刘知远:关于AI的精度和隐私保护,在联邦学习等这些方面,我们有什么值得研究的话题?
   
杨强:实际上,这是一个交叉领域。当数据不是集中在一个地方,而是分布在不同的数据拥有者那个地方的时候,如何能够让模型能够平衡地增长,不会形成一个数据寡头,这个寡头会左右整个联盟的发展,这是第一个问题。

第二,如果我们用一个加密机制来进行参数的沟通,如何能够在保证这个参数保密的前提下,又能够把速度、效率提升。第三,如何能够做出更加有效的,并且高效的加密算法,这种算法的特点,应该不仅能够保护数据本身,同时又允许在加密的状态下可以进行各种运算,包括非线性的运算,能够支持像深度学习这样的网络计算。


另外一个维度,如果网络有多个参与方,如何建立一种激励机制,能够用经济学和博弈论的观点,设计一个好的机制,让大家有动力参与到这样一个数据联盟,模型联盟里来。

还有就是人的因素,我们在进行协作的情况下,如何能够遵循同一个标准,在国际上,在国内,在行业里面,如何能够建立一些行业和国际的标准,让大家有共同的语言来交流,这些都是不同的维度来进行研究。
   
下一代人工智能
 
唐杰:下面要讨论的是下一代人工智能,下一代人工智能的技术特点应该具备哪些特点,包括隐私方面和其他各个方面?
   
杨强:我觉得下一代人工智能,一定要考虑到“人”。以AlphaGo为出发点的人工智能,像无人机、无人车、机器人还有下围棋的机器人,都没有真正把人的因素考虑进来。而近几年我们越来越多的发现,包括我们讨论的隐私,都是说机器和人要协作,在这个过程当中,人的利益有哪些我们需要关注的?
 
比如隐私、安全和可解释性,人工智能的模型做出的判断如何能够解释给跟它一起合作的人类合作伙伴,如何能够把inference的机制和训练的机制解释给人,如何能够对不同(职位立场)的人给出不同的解释。
 
当然还有其他的,比如说如何能够让人的智慧直接赋予机器,让机器不是从头学,而是能够站在人类的肩膀上来学习等等和人的交互,这是下一代(AI)的特点。
   
高文:其实我把下一代人工智能排第一位(特点)也是可解释人工智能。排在第二位的,是高效能人工智能。我觉得现在的人工智能,不管是追求超过人类的精度,其实付出的代价是巨大的,比如说最近我们在鹏城实验室准备投资四十多个亿搞一个鹏城云脑Ⅱ,希望有1000P的AI的算力支持大模型的训练,但人其实不需要这么大的算力,现在这样做是别无选择,但是我希望下一代人工智能效率要高一点,不要为了训练一个模型花费这么大的算力,这是不应该的。
   
张钹:我非常同意刚才两位老师讲的内容。其实我在考虑的问题是人工智能最终目标是什么,我们现在做了哪些事情。
 
先说前面一个问题,我们在60年里面做了两件事,一件事是根据符号主义的思路建立的以知识为基础的推理模型,通过这个模拟人类的理性行为,有了一些进展。另一件事是我们现在对的深度学习,就是以连接主义的思路,从神经网络层面上试图去模拟人类的智能行为。
 
这两件事现在做得怎么样了?很多人这样评价,这只是人工智能的序幕,大戏还没开始,为什么说是序幕呢?因为这两个范式是都不可能达到真正的智能,对第一个范式来讲,没有解决所谓的符号基础问题,这个符号是没有语义的,语义你是从外界强加的。基本概念里特别是常识,你只能用符号告诉他,这叫吃饭,这叫下围棋,就是说它的根基没有,这个根基必须产生于人类跟环境的交互中间建立起来的概念。因此,现在所谓的推理也好,符号主义的方法也好,就是在训练知识下面去积累新的知识,这个并不是真正的智能。
 
深度学习更是这样,深度学习其实跟人类的感知差得太多,他只做了分类,只做了感觉这一部分,并没有做到认知这一部分。所以这两个方向都是走不远的。
 
现在的问题是正戏怎么演,看起来相当多的人已经认识到,只有把这两个结合起来,才有可能产生真正的智能,因为这两个正是互补的。符号主义是解决理性分析、理性智能的问题,连接主义是要解决感知的问题,虽然现在只做到“感”,没做到“知”,后面大家要想出很多的办法来解决这个问题。
 
目前人工智能存在的那些缺点,安全、不可靠、不可解释和不容易扩展都能够解决。现在的问题是,这个工作有没有希望,我们国家能不能做这个事?
 
我自己认为,我们完全有条件做这个事,现在这个思路全世界都在探索,当然这条路还是很长的。我们的信心建立在什么基础上呢?可以看到,即使我们现在刚刚是序幕,已经会产生很多有用的结果,我们可以想像,大戏如果开场的话,人工智能就会出来更多更好的结果。
 
所以我对这个前景还是比较看好的,问题就是怎么来做这个事情,这是最关键的问题。因为这是从0到1的创新,只有加强人工智能的基础研究,才能解决这个问题。我们往前走的时候,效率和其他的可解释问题,也都会逐步得到解决。
   
唐杰:现在的人工智能主要是在感知时代,下一个人工智能很可能是认知时代。
   
张钹:感知是感觉+认知,所以我们现在做的不是感知,是只做了感觉,没做到感知,感知必须是感觉到认知,区分这个物体,而且必须认识这个物体,这两个是不一样的,我们现在都是做了一半,在认知这一部分做了很肤浅的部分,我把第一个范式叫第一代人工智能,第二个范式叫第二代人工智能,我现在指的下一代人工智能是指第三代的人工智能。很明确,就是要把第一代人工智能的知识驱动的方法跟第二代人工智能数据驱动方法结合起来。
   
唐杰:张院士认为有没有阶段性的(研究过程)分解一下,我们做一下相关的研究?
   
张钹:人认识狗,必须要有狗的先验,计算机没有狗的先验,不认识狗,狗的先验从哪儿来呢?深层次的网络里面大家可以看到,通过无监督或者是弱监督学习,已经在往前走。现在,我们的博士生做了一个工作,把深层次网络、分布式网络等几个网络结合在一起,就可以把物体先验的知识通过弱监督或者无监督把它学习下来,利用这个知识来指导分类,使它逐步走向,既可以分辨物体,又可以认识物体,这方面的工作已经有很多这方面的工作。

抢占AI制高点

唐杰:回到今天的最后一个问题,怎么来抢占制高点。既然我们要抢占制高点,又不能光发论文,要做颠覆式创新,学生的角度怎么做相关的科研,怎么在研究上抢占制高点,怎么在工程上,甚至是系统上抢占制高点?
   
高文:什么事都不要走极端,重视论文,论文就是一切,不重视论文,论文就不能发了,有点走极端。我觉得这一点都不矛盾,关键还是和你研究的动机有关。我认为抢占制高点,最关键的就是要瞄准一些没有人做过的东西,让学生去做,做出来了,你该发论文发论文,该怎样就怎样,所以研究动机是关键。
  
杨强:现在Paper都成灾了,顶会动辄都是上万篇投稿,这个现象总会发生的,因为大家认为一个方向有前途,第一件事必然是写文章,争取出人头地,这个姑且不论,作为一个有责任心,有志向的学生或者是学者,应该努力创新的一部分就是选题。大家可能更多的去关注文章的数量,而没有在选题上更多的关注。
 
我的一个前辈图灵奖获得者Jim Gray,有一次提出应该做什么样的研究。首先,这个研究很新,以前没有发生过,比如说计算机刚刚出现的时候,语音识别就是很新的方向,从来没有人尝试过。第二,这个问题又很难,难到什么程度呢?大家一听到这个问题会发愣。第三,这个问题又很容易解释,比如说你在家里面,问你的祖父母理不理解这个问题,让计算机能理解语音,他们一下就懂,一句话就能描述,这样的问题往往是比较重要的。

有了这些条件还不够,有很多这样的问题,我们是没办法真正解决的,还需要一些方法,可以分解成一些可以解决的阶段,每一个阶段就是一个小目标,先分成一个个小目标去解决。
 
最后,现在的计算机,尤其是人工智能的发展,是离不开数据的,最好是有数据,或者是很容易获得,这个研究才可以落地。如果大家按照这个方式去寻找一些新的问题,总是有一些新的问题,还没有很多人去解决,这样的文章不嫌多。
   
张钹:我基本上同意刚才两位老师的分析,实际上基础研究,最后还是落脚到发表论文上,所以我认为,现在发表论文数量比较多,这是一个进步,非常大的进步。
 
我们现在的基础研究平均水平实际上是接近世界水平的,平均水平很高,但是我们缺点在哪儿呢?最高水平跟人家差得太多,我们还没有从0到1的发现,这在发达国家能做到,我们还做不到。
 
我们也不要对现在的现象做过多的批评,因为我们过去没有条件做这个事,因为我们都不知道前沿在哪儿,最前沿的文章都发表不出来,有什么可能去做0到1的发现呢?所以应该说在我们的平均水平已经接近世界一流的情况下,我们是有条件去做0到1发现的,也就是做一个具有巨大影响力的基础研究。当然平均水平高,才能产生最高水平的文章,其实基础研究的水平是是由最高水平决定的。
 
现在中国在做这件事情上,我认为在体制上还有很大的困难。比如说我们有很多优秀的学生,我们一般情况下,不敢让他做那些非常困难、非常新的问题,我们的学生经不起失败,而在外国的体制里有相当一部分博士生毕不了业,但是这对他没多少影响。
 
我在一个大学里待过,他们有一个博士生做了八年,到期做不出来,结果去找工作,好多公司抢着要他,我就问,为什么要他?他有八年的工作经验,是这样想的。但我们如果有一个清华大学的博士,非常优秀,但没有做出来成果,我们会怎么来处理这个问题,他根本没法毕业,很难找到工作,或者是只能找到不太理想的工作。
 
所以我们在基础研究上,体制、机制还是需要摆进来,不然的话,这个事情是不容易做成的。
    
唐杰:观众提问,我是一个普通的高校学生,最近找工作的时候经常碰壁,一方面跟现在的大环境,但是另外一方面,我担心的是现在AI技术,是不是人才饱和,未来的就业环境可能会更加恶劣,有没有什么这方面的就业建议?
   
杨强:我觉得如果只是去做大家都做的这些工作,就一定会碰壁的,在任何一个领域,如果落地的场景很少,并且做得人多,一定会饱和的。所以,有两个方向,一个是把自己变成一个真正能把技术落地的非常能干的人,另外一个是能做一些比较高精尖的研究工作的人,比如说院士这样高端的研究人才,去发现问题,解决问题。
   
高文:这其实几乎在任何时候都会存在的一个问题。我记得90年代在日本念书的时候,当时我周围那些日本的同学,他们就很焦虑,大家觉得日本特别是80年代末那段时间,经济非常好,90年代初,日本的经济就开始下滑,学校里面这些念研究生的,一个个都非常惊恐,找不到工作了,他们当时就叫over doctor(博士过剩),本科毕业就降低一点要求,找一个工作还是可能的,特别是东京大学这种本科毕业一般找个工作都容易,但一旦博士毕业了,工作领域就非常受限,找工作会非常难,所以就非常焦虑。
 
但是实际的情况,我们的研究生毕业以后,所有人都找到工作了。所以我说,问题总存在,出路是关键,自己要把能力训练好,另外就是对于工作的方向性的选择也很重要,这可能和个人的选择是有关系的,也没什么太多好建议的,做好自己就是了。



推荐阅读
你点的每个“在看”,我都认真当成了AI

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存