可信人工智能的前世今生

Original 陶大程腾讯研究院 2023-02-09

陶大程 澳大利亚科学院院士、京东探索研究院院长、京东集团高级副总裁

2021年12月11日，由南方科技大学主办，南科大人文科学中心、斯发基斯可信自主系统研究院、腾讯研究院共同承办的“AI伦理关键问题及其解决路径”学术研讨会，在南科大人文社会科学学院报告厅召开。29 位专家学者从不同视角出发，共同探讨未来人工智能发展的可行路径。本文为陶大程先生的分享内容。

今天，在深度学习技术的驱动下，人工智能在自然语言处理和机器视觉等领域都取得了非常迅速的进展。

以视觉应用为例，深度学习技术，不仅可以帮助我们识别场景中的文字，检测人脸、人体的特征点，分割物体、场景，跟踪单个目标、多个目标，识别人的表情、性别、年龄、动作，充分理解视频场景的内容，还可以做很多特效处理——包括慢镜头、加/去雨雾等等。我们甚至只需要一张图片，就可以估计每一个像素到摄像机的距离，恢复这个场景的三维信息。此外，我们还可以对场景中人和人、人和物、物和物之间的关系进行充分的建模。

但是，今天的人工智能也遇到了很多挑战，尤其是和可信相关的诸多问题。

例如，一个水杯，正常情况下用深度学习系统识别时，它是一个水杯。但如果在这个水杯上放一个小卡片，系统就会把它识别成一个装饰物，而不再是一个水杯了。这就是我们常说的对抗攻击，而这个干扰就是对抗样本。

再举一个无人驾驶的例子。今天辅助驾驶已经非常普遍，无人驾驶也已经成为研究趋势。其中，有一个很重要的技术，就是道路交通牌的识别。但如果在这个道路交通牌上贴上小广告，比如房屋出租、寻找Roommate或是修水管（其实很多地方都会出现这样的问题），智能驾驶系统可能就会把一个停车的stop sign识别成100km/h。这对于智能驾驶就是致命性的问题。

另外，由于缺乏可解释性，无人驾驶系统在道路上事故频发，也使得我们对于人工智能的信任不断下降。

此外，用户隐私保护、算法歧视等问题也不断挑战着人工智能的可信性。如某公司在未征得用户同意的情况下，使用用户数据进行精准广告推荐。这样的操作违反了欧洲在2016年出台的《通用数据保护条例》（GDPR），被法国监管机构开出了巨额罚单。美国的一家公司开发的犯罪风险评估系统COMPAS也存在对黑人的系统性歧视问题。相对白人来说，它认为黑人有更大的可能性被认定为再犯罪。

除了种族之外，类似的歧视问题还会出现在很多方面，比如对性别的、年龄的、收入的、居住区域的歧视。

那么，面对上述人工智能系统所面临的可信挑战，我们又该如何应对呢？

2016年4月，欧盟出台了《通用数据保护条例》；2017年12月，国际电气和电子工程师协会（IEEE）出台了《人工智能设计的伦理准则》；此后，欧盟、美国、澳大利亚、新加坡都出台了相关的指南、计划、条例、法规等等。

在中国，可信人工智能的发展也非常迅速。2017年，何积丰院士于香山科学会议第S36次学术研讨会上，首次在国内提出了可信人工智能的概念。2017年12月，工信部印发了《促进新一代人工智能产业发展三年行动计划（2018-2020）》。在此之后，国内包括腾讯、百度、京东等在内的高科技公司都出台了相应的规划。比如京东在2019年10月提出了践行“可信赖AI”的六大维度；2021年4月，京东探索研究院把可信人工智能正式列为三个主要的战略研究方向之一。

通过梳理一些比较有代表性的指南和准则，我们会发现大家都在探讨一些非常相似的概念，虽然这些词汇本身会有一些差异，但究其背后的定义，大致可以总结为：透明可解释、安全可靠、被遗忘权、人的监督与干预、造福环境与社会、隐私保护、精准性、包容性、公平性等九个方面。

另外需要强调的一点是，不管是技术性的、还是非技术性的，这些概念都不是最近才有的。在计算机刚刚诞生时，就已经有人在担忧计算机对人类的影响，开始探讨鲁棒、安全的问题了。有关数据隐私保护的讨论也可以往前追溯到互联网刚开始的时代，当时就有科学家指出互联网的快速发展势必会导致隐私问题。

根据这九个概念的定义，我们可进一步把它们归并为五大方面：稳定性、可解释性、隐私保护、公平性以及相关的责任划分。

稳定性，指人工智能系统抵抗恶意攻击或者环境噪声的能力；可解释性，是希望人工智能系统能够对决策过程以及相关数据给出正确的、可以让人理解的解释；隐私保护，是希望人工智能系统能够保护用户的个人隐私信息不被泄露；公平性，是希望人工智能系统能够不因人种、性别、年龄等特定特征对用户产生系统性的歧视或者偏差。

除了去定义这些基础特性之外，我们还需要找到一个量化的手段。因为量化是我们认知事物的基础，例如长度，我们需要建立合理的度量衡，并且要达成共识。对于可信的每一个概念，也是一样，需要建立统一的度量标准，以此分析和明确责任。

稳定性该如何度量呢？虽然刚才做了一个非常简单的总结，但实际上稳定性是非常复杂的。对于对抗样本、自然噪声、系统噪声的分析处理，稳定性可能是完全不一样的。最近我们联合北京航空航天大学、牛津大学、悉尼大学等单位做了大量实验，发现不同类型的神经网络对不同噪声的攻击所表现出的状态是不一样的。这就要求我们能够从基础定义出发，深入探讨如何度量系统的稳定性。比如对于系统攻击的稳定性，可以通过对抗攻击、中毒攻击、后门攻击等的成功率来衡量。

当有了稳定性的度量后，如何提升系统的稳定性？可以通过对抗训练——过去我们也从理论上证明了通过对抗训练确实能够有效提升稳定性，或者还可以通过样本检测的方式，把不好的样本剔除出去。另外，我们最近的研究指出transformer系列的工作将会成为一个重要趋势， transformer对于对抗攻击的稳定性非常鲁棒。

如果说稳定性的研究是复杂的，那可解释性的研究将会更具挑战性。甚至对于什么是可解释性，今天我们还没有达成一个共识。

比如在研究一个神经网络的可解释性时，网络的性能、泛化误差、网络损失曲面的复杂度等等，都构成可解释性的不同方面，其中泛化误差上界的研究非常重要。可解释性的内容包括有效性分析、样本检测、显著性分析。另外，如何从训练样本、测试样本的角度出发，去理解我们的神经网络，也是非常好的研究方向。

隐私保护的问题，也是大家非常关心的。AI系统在为用户提供精准服务的同时，也要注重保护用户的隐私。比如有了一个人的人名、家庭住址，超大规模神经网络就能把电话号码、社保号等隐私信息恢复出来。这主要是由于神经网络本身是一个很庞大的记忆体，具有很强的、非线性的记忆功能。

神经网络，很像是一个编码器，对所有的训练信息进行编码。很显然，它有机会去重构被编码的数据。另外，还可以根据训练好的模型进行成员推断攻击，来判断一个数据是不是该模型的训练数据，也可以做模型的反转攻击，通过模型的输出进行数据重构。所以从理论上，大部分模型都有可能会泄露用户的隐私。

基于差分隐私这种度量手段，我们就有机会找到一些技术性的方法，来降低系统泄露用户隐私的风险。此外，也可以通过联邦学习，结合同态加密、多方计算等，提升用户隐私保护的性能。

公平性包含了个体公平性、群体公平性。我们现在定义的方式也是非常局限的，如何针对具体问题得到具体定义，是非常重要的手段。

如何去保护公平性？我们在训练网络、定义模型或者数据处理阶段，有各种各样的机会，去提升我们这个系统的公平性。公平性保障算法包括了预处理方法、处理中方法、后处理方法等。

需要强调的是，大数据杀熟不是公平性的问题，而是不正确的行为，需要合理的管控。因此，我们进行研究时还需要搞清楚哪些是技术性的，哪些是非技术性的问题。

稳定性、泛化能力（可解释性）、公平性、隐私保护，是可信人工智能的基础。它们并不是完全独立的，比如理论上可以分析出泛化能力和稳定性存在一定的平衡关系，稳定性和隐私保护也存在平衡的关系，而泛化能力和隐私保护又有协同的关系。

因此，我们需要建设相关的综合治理框架或者统一的研究范式，来对它们进行基础理论分析，得到最终我们觉得合适的度量标准。

总体来看，未来可信人工智能的一体化研究将会是非常重要的方面，可信能力评测也是人工智能在落地过程中必不可少的一个环节，从理论与实践层面持续展开可信人工智能的研究，我们相信一定会推动人工智能进一步的落地并在产业中创造新的机会。

（内容整理：郎萌腾讯研究院助理研究员）

推荐阅读

曹建峰：《从原则到实践：人工智能的“伦理转向”》

王焕超：《谷歌让普通人读懂AI》

👇 点个“在看”分享洞见

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

可信人工智能的前世今生

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

生成图片，分享到微信朋友圈

可信人工智能的前世今生

您可能也对以下帖子感兴趣