【未来科学论坛】AI决策的可靠性和可解释性（下）|「AI伦理与治理」系列4期实录

蔻享学术 2022-07-02

The following article is from 未来科学论坛 Author 科学改变未来

点击图片查看：AI决策的可靠性和可解释性（上）|「AI伦理与治理」系列4期实录

本文为未来论坛AI伦理与治理系列04期——《AI决策的可靠性和可解释性》实录稿，共分主题报告和圆桌讨论两个部分，今天分享的是圆桌讨论实录，由未来论坛青创联盟成员、清华大学计算机系长聘副教授、博士生导师崔鹏主持，参与讨论的嘉宾分别有：清华大学社会科学学院社会学系教授 李正风，清华大学公共管理学院教授、清华大学人工智能国际治理研究院副院长梁正，京东探索研究院院长、澳大利亚科学院院士 陶大程，未来论坛青创联盟成员、北京大学计算机科学技术系讲席教授、高可信软件技术教育部重点实验室（北京大学）副主任、北京大学信息技术高等研究院数据驱动软件开发实验室主任谢涛，上海交通大学副教授 张拳石。点击观看上半部分主题报告实录。

讨论议题：

一、AI可靠性和可解释性的现实风险、公众诉求都有哪些？

二、从技术角度来看AI可靠性和可解释性之间是什么样的关系？各自的范围和边界是什么？

三、可信人工智能在实际应用中存在哪些机会、问题和挑战？

四、从社会治理角度，政府、公众、社会团体应该如何共同参与到AI可靠性的发展当中来？

五、强监管环境下，政府和企业在应对AI可靠性风险方面应该怎么样去联动？

导语 / Introduction

随着 AI 的发展和广泛应用，研究者和开发者面临的挑战是理解和追溯算法如何得出结果。可解释的AI，可使人类用户和开发者能够理解和信任机器学习算法所产生的结果和输出。了解AI的系统如何生成特定输出，可以帮助开发者确保系统按预期运行，建立可定义的监管标准，并以此对 AI 进行模型监视和问责，最终降低生产 AI 的合规性、法律、安全和声誉风险。

本期活动，将阐明公众、政策法规和AI技术研究与开发者对AI可解释性的理解和需求上的不同，分享AI的可解释性、稳定性和鲁棒性、可回溯可验证三个方面的技术研究和解决方案，共同探讨实现AI可解释可靠的道路。

嘉宾对话

从宏观角度来分享对“AI的可靠性和可解释性”话题的看法

@陶大程

可信人工智能还是一个比较开放式的问题，需要大家从不同的方面深入思考，它主要聚焦于人工智能技术的稳定性、可解释性、隐私保护、公平性。2020年11月25日，在京东探索者大会上，京东宣布成立京东探索研究院，开始面向世界招揽相关的科技型人才。

2021年3月，我出任京东探索研究院的院长，开始规划京东探索研究院的战略方向，当时制定了三个重要的研究方向：第一个是可信人工智能，第二个是超级深度学习，第三个是量子机器学习。

在可信人工智能方面，我们主要聚焦于人工智能技术的稳定性、可解释性、隐私保护、公平性。从理论出发理解深度学习的工作机制，分析风险，研究深度学习的新算法，分析神经网络的代数和几何性质以及泛化能力，以此来保障人工智能应用的可解释性。目前可信人工智能还是一个比较开放式的问题，需要大家从不同的方面深入地思考。

超级深度学习主要关注超大规模模型的训练，希望从理论层面分析超大规模深度学习网络的优越性到底在什么地方，以及它可构建的生态系统的模式和途径。

关于量子机器学习，到2035-2040年，全世界电力产能不足以支撑仅人工智能这一项所带来的消耗。届时“兰道尔极限”将是主要问题，目前来说量子计算机的应用是突破传统计算机“兰道尔极限”最有希望的手段。量子计算机发展非常迅速，我们希望通过量子计算机来构建新型的机器学习系统，最终实现人工智能的进一步提升。总体来说，不管是超级深度学习还是量子机器学习，我们都希望构造的系统本身是可信的。

@李正风

1.显然，对AI决策的信任是不能够完全由技术来保障的。所以我们不得不去共同思考，怎样重新建立数字时代、人工智能时代的社会信任机制。

2. 所谓道德真空可能表现在两个方面：一是道德无意识，进行算法设计的时候根本没有考虑可能出现什么样的伦理问题、社会问题。二是道德无规则，知道可能存在问题，但不知道应该怎么办。

3. 解释也意味着我们根据必要的技术和社会标准对AI进行规范，同时向社会、向公众、向用户做出承诺。

我主要做社会学方面的研究，关注科技与社会的问题。关于人工智能决策的可靠性和可解释性问题，从三个方面谈谈我的看法。

第一，人工智能决策的可靠性和可解释性的关系。显然增进人工智能决策的可靠性是一个目标。可解释性、可信任性、可理解性，都是为了提高可靠性服务的，之所以关注人工智能决策的可靠性，很大程度上是因为我们把决策权更广泛的交给了机器，这是人工智能技术区别于其他技术非常重要的特征。让渡出决策权和控制权，AI决策又存在很大可塑性和很大风险，AI决策的相关技术也存在不同类型的缺陷和问题，目前存在的值得突破的方面也有很大发展空间。这使我们不得不高度重视AI决策的可靠性问题，否则就不能放心应用AI的决策。但是，对AI决策的信任是不能够完全由技术来保障的。所以我们不得不去共同思考，怎样重新建立数字时代、人工智能时代的社会信任机制。换句话说AI决策可靠性需要建立社会信任网络来加以保障。

第二，我们为什么要对AI决策的算法进行解释。原因之一是算法的黑箱化。除了算法的黑箱之外，还有很重要的一个方面——算法具有可塑性。算法的可塑性是指算法的可变性和易变性，算法设计者可以对算法进行扩展、删改和修正。算法可塑性带来了两方面后果：一是很难预先确定最优、最可靠的算法，算法好坏一方面受设计者认知水平和技术能力有限，也受算例、数据的可靠性、完备性的影响。很多算法算例都具有情景化特征，当它转移到另外一种情景是否适合？这是值得思考的问题。更重要的是，算法设计会受到设计者自身伦理修养、社会责任意识等方面的影响。算法的可塑性带来的另一个后果，由于算法不稳定，所以算法可能带来安全风险，也会产生各种伦理问题。很多和计算机技术、人工智能技术相关的伦理问题，往往都是由计算机的逻辑可塑性、算法可塑性带来的。可靠性是其中一个方面，也是最基础的一个方面。AI决策过程当中可能出现一种情况，就是算法设计在伦理上出现一种道德真空。所谓道德真空可能表现在两个方面：一是道德无意识，进行算法设计的时候根本没有考虑可能出现什么样的伦理问题、社会问题。二是道德无规则，知道可能存在问题，但不知道应该怎么办。为避免道德真空，所以要求人工智能企业、算法设计者要对算法、AI决策机理进行解释。这种“可解释性”、“可理解性”，不仅是技术上的，也是社会责任和伦理责任意义上的。解释的目的不仅是解释技术上是否可行，更重要是要解释如何以及是否能够被社会所接受，是不是能够被社会所信任。所以AI决策要有“可解释性”，需要解释，更重要的是一种从社会责任角度、从伦理角度提出来的要求。这种伦理责任原则上讲，要保证增进人类福祉、尊重生命权利、不伤害、保护个人隐私和个人的其他权利等等，坚持公平公正，能够及时地感知并且合理地控制风险。所以要求要做出解释，使之可理解、可信赖，本身就是要求算法设计者自身要有伦理意识、责任意识。

第三，我们需要向谁解释？解释的意义究竟是在什么地方？可解释性是否能够编制出一个保障可靠性的有效屏障或者无缝之网，这是理解可解释性、可信任性、可靠性关系需要思考的。向公众解释或者向用户解释，其实大多数公众或者用户是难以理解技术细节的，可能我们解释的对象或者最能够理解技术细节的往往是同行，同行可能是企业内的同行、行业内的同行，国内的同行也包括全球的同行，学术界的同行。其次要解释的很重要的对象是政府监管部门，但最终是要向公众、向社会负责。如果是负责任的行业共同体、负责任的监管机构，通过这种解释，通过主体间的交互作用，相互的研讨，可以有效地防止个人认知或者技术上的偏差，也可以推进技术上不断进步和升级。这个解释本身就是监管的一个重要前提，它要防止被利益或者其他因素影响，也包括前面提到的歧视问题或者其他的意识形态的问题，来促进良性的社会规制。所以解释也意味着我们根据必要的技术和社会标准对AI进行规范，同时向社会、向公众、向用户做出承诺。这个过程中，公众也作为重要的角色介入到保障AI决策可靠性和可接受性、可信任的社会网络之中。这是塑造一个社会信任的共同体，是共同建构一种社会理性和集体理性，通过社会理性或者集体理性来促进人工智能技术健康发展，形成塑造社会信任共同体的社会网络。

议题讨论

议题一：随着AI技术在实际生产生活中的广泛应用和渗透，社会上出现了各种各样关于AI技术担忧的声音，AI可靠性和可解释性的现实风险、公众诉求都有哪些？这里包括从政策层面，政治方面，经济方面的现实风险，公众对于社会公平、信任等的诉求。

@梁正

在公共场景中，监管规则实际上是权力重新分配的问题，人们是依赖系统还是依赖决策者，我的观点认为背后是规则，要在充分讨论的基础上，形成这样一个规则——什么是可靠、什么是安全。

关于可解释性、可靠性，除了社会认知外，人们更多地把它视为一个公共的选择。举个例子，我们可以看到很多领域存在类似的问题。不是所有的AI应用都要去解释，在日常使用大量产品的时候人们不会去关注其背后的技术原理。但是为什么对药品、食品、家用电器要有监管、认证制度？更多是由于在其应用中涉及到人身安全、财产安全，所以在产业长期发展过程中建立起了这样一套监管体系，这是从消费者、从用户角度出发，把握安全、健康、环保等底线的必然要求。

对于AI系统的应用，由于它是通用技术，在应用到公共领域的时候会涉及到公共安全问题、公平性问题，所以它确实和一般的产品安全存在一定不同。在公共场景中，比如司法、公共卫生领域，这些方面的监管规则实际上是权责的重新分配问题，人们是依赖系统还是依赖决策者，我的观点认为背后实质是规则。对于新技术的治理，要达成新规则，比如可靠性对于监管者、使用者来讲，其着力角度是不一样的。我们要在充分讨论的基础上，形成这样一个规则——什么是可靠、什么是安全。至于可解释性则应当分类分级对待、具体情况具体处理。欧盟也好，美国也好，对于涉及到个人利益包括公平隐私等情况，更多是给用户以选择权，不一定要受外在规则的限制。但就公共卫生、交通安全等公共领域来讲，这就需要强制实施，通过准入的方式进行保障，所以要视不同情况进行处理。

@李正风

从不同伦理立场来讲，公众的诉求分不同层面，最基本诉求是从AI决策可能产生的后果、会带来什么样的后果，要能够带来最大的公共善、要防止对个体或者对社会公众带来伤害或者不安全等等问题，这是一个底线。

公众对可靠性、可解释性的诉求有很大差异，和社会公众伦理立场本身不完全一致有关。从不同伦理立场来讲，公众的诉求分不同层面，最基本诉求是从AI决策可能产生的后果、会带来什么样的后果，要能够带来最大的公共善、要防止对个体或者对社会公众带来伤害或者不安全等等问题，这是一个底线。所以现在讨论可靠性，实际上是守住底线的问题，当然公众诉求可能更高一些。

从义务论立场出发，用户会保护自己的应有权益，这个权益不完全从后果来考虑，即不论后果好坏，只要侵犯了用户权益就不应当，比如保护隐私权的问题、比如企业不能撒谎的问题、比如我们必须要遵守一些公序良俗的问题。

进一步从契约论角度看，社会公众、政府监管部门，要求企业、技术人员和用户之间达成一个双方共同认可的契约。共同契约的签订，往往里面包含了很多技术上的黑箱，用户使用AI产品的时候不一定会很好地理解这个契约。恰恰对于契约而言，我们有时候需要解释。而且契约的可解释性、可接受性，应该通过政府监管部门予以保障。要求每个公众都理解契约的技术细节很难，所以需要公共部门保障公众和企业、行业签订的契约不会对公众带来伤害的隐患，所以在这方面现在很多法律要求要透明、要可解释，这是一个保障机制。

最后从最高的道德伦理立场来看，即德行论的立场，希望企业、从业人员、公众都能够是有德行的人，是自律的人。对有社会责任的企业、对负责任的企业，可能社会公众会有更高的认可或者接受。我同意我们可能要分级分领域的制定相应的规则来满足不同层次的需求。

议题二：从技术角度来看AI可靠性和可解释性之间是什么样的关系？各自的范围和边界是什么？

@张拳石

很多情况下，结构决定了知识表达，而知识表达的客观性、严谨性与可靠性决定了性能，这之间需要结构和知识、知识和性能之间建立联系。

从技术层面讲，AI可靠性可以理解为AI可靠性算法、可解释性算法本身是否可靠、是否能够被解释。简单来说，解释一个模型或者解释一个神经网络，无非是要追求解释结果的透明性，特征表达的透明性，希望知道它本质建模的知识是什么，以及基于何种原理进行决策。语义上解释神经网络，这是解释性，但是离不开解释结果本身的可靠性。这里要强调语义本身解释结果是否可靠、对于语义的建模是否可靠、解释结果的数值是否严谨。所以，语义解释本身要可靠。现在很多解释结果只能做到自圆其说，只是它的理论假设得到解释，不同的方法都是成功先进的方法，但对同一现象的解释可能不同。所以不同算法或不同的方法、不同的技术，对同一个模型、同一个现象有不同的解释，彼此之间是独立的，不能相互印证，这是解释结果的可靠性问题。因此，需要不同的结果相互印证，找到其解释结果不同的原因是什么。如果语义上理解还有更深的理论支持，还要考虑怎样呈现给大众，解释结果才能让大家理解。再者，解释结果应当严谨客观，这就涉及如何订立解释性的标准的问题。此外，解释结果应当能够被验证，即可靠性。

还有一个重要的问题是，如何从表达能力方面进行解释，为什么一个神经网络比另一个神经网络在这个项目上更可靠、性能更好，这是泛化能力的解释。现在很多结果都追求找到数学上泛化能力的边界。从数学上解释本身没有错，但是人们能不能理解这个解释结果又是一个问题。我们不仅要发展可靠性理论，还要解释可靠性理论本身，关注可靠性结果或者数学公式能否在物理意义层面的解读。所以，我们不光要解释神经网络的表达能力，而且对解释结果或者数学推出的结论、数学不等式背后的内在机理都要有解释。进一步从网络结构和知识表达之间建立起数据关系，从知识表达和网络性能之间建立关系。现在很多方法（比如泛化能力或者性能），往往就是从神经网络结构和性能之间直接建立对应关系，但理论上来说这是不可解释的。很多情况下，结构决定了知识表达，而知识表达的客观性、严谨性与可靠性决定了性能。这之间需要结构和知识、知识和性能之间建立关系，归根到底这个结论不光是对某个具体现象的结论，而且要对神经网络的结构设计和优化算法进行反馈指导。解释性理论本身应该能够有一个泛化性能，在不同神经网络、不同应用中都能指导神经网络的训练，指导AI模型的结构设计。所以，从语义、从表达能力进行解释，而且解释结果本身需要是可靠的，可靠性的泛化理论也是能够被解释的。

@陶大程

稳定性、可解释性、隐私保护以及公平性相互关联，并不是孤立存在的，需要从整体角度对人工智能的可信能力进行研究。

可信人工智能的研究涉及很多方面，如果要实现可信人工智能，首要任务是找到合适的方法进行定量分析，量化人工智能的算法、模型、系统的稳定性、可解释性、隐私保护能力以及公平性。如果人工智能的可信度量在以上这些方面都能够达到共识水平，就更有可能做到明确责任、透明可信，从而来推动人工智能在相关应用中的落地。
第一要达到共识水平，第二是要有定量分析手段。要做到这些，首先需要理解什么是可信人工智能的稳定性、可解释性、隐私保护以及公平性的问题。人工智能系统的稳定性，就是人工智能系统在抵抗恶意攻击或环境噪声的条件下做出正确决策的功能。高性能的人工智能系统能在保障用户安全的同时更好地服务用户，可以通过攻击算法、攻击成功率来度量系统稳定性。现在稳定性技术也有很多方法提升稳定性，比如对抗训练、样本检测等方法都可以提高稳定性。目前的问题是，对于稳定性，还需要找到大家共识的度量标准。我们也很关心可解释性，人工智能系统做出的决策需要让人能够理解。可解释性的提升不仅有助于构建更高性能的人工智能系统，更能促进人工智能技术在更广泛的行业进行落地与赋能。可解释性度量的内容，除了模型的可解释性外还有训练样本的可解释性、测试样本的可解释性。可解释性涉及的点非常多，比如泛化性能、特征、因果、可视化等等。如何在技术层面对度量指标达成共识，并对系统进行度量，然后指出系统的可解释性，是非常重要的问题。
隐私保护主要是人工智能系统不能将个人的隐私信息或者群体的隐私信息泄漏，人工智能系统为用户提供精准服务的同时也要保护用户的隐私。用户隐私非常重要，度量一个系统的隐私保护能力，可以用差分隐私或者隐私攻击等方式。此外还可以通过联邦学习、多方计算、同态加密等手段提升系统保护用户隐私的能力。
公平性是指人工智能系统需要公平对待所有用户。大众用户、小众用户，男用户、女用户，不同种族的用户，年轻用户、中年用户等等，都要求公平地处理。公平AI系统能够包容人与人之间的差异，为不同用户提供相同质量的服务。目前可以使用个体公平性以及群体公平性指标进行相关的公平性度量。公平性的保障算法包括预处理方法、处理中方法以及后处理方法。
关于可信人工智能的稳定性、可解释性、隐私保护能力、公平性的度量以及提升方法，现在还处在初级研究阶段，我们还有很多机会进行深入研究。稳定性、可解释性、隐私保护以及公平性相互关联，并不是孤立存在的，需要从整体角度对人工智能的可信进行研究。要想最终实现可信人工智能系统，需要找到统一的综合治理框架，要构建可信人工智能的一体化理论，帮助我们实现有效的可信治理。
可以举一些简单的例子，所有的人工智能系统在运行环境中都会受到噪声的影响，比如用来观测的传感器存在误差，也就是系统误差；还有环境因素，比如天气变化、日照变化带来的环境噪声；甚至人们自身还会带来很多人为噪声，现在人工智能系统训练的时候需要大量的人对数据进行标注，标注过程中可能犯错，甚至同样的数据不同人的标注内容可能有所差异。实践表明，这些噪声可能使现有人工智能系统失效。此外，神经网络中还存在大量对抗样本，数据上微小的噪声都会显著地改变系统的预测和决策。所以，发展鲁棒可靠的人工智能技术非常必要。现在很多不同的技术尝试解决这样的问题，例如PGD方法通过梯度上升寻找对抗样本以促进鲁棒性提升的方式。
目前人工智能技术的工作原理还没有得到较好的解释，虽然大家已经做了非常多的努力，但相关研究还是处在非常早期的阶段。任何一个学科的发展都要经过很长时间的打磨，尤其是人工智能是一个综合学科，涉及面非常广，我们真正深入理解人工智能还需要很长时间。比如物理的发展，牛顿力学统治经典物理几百年的时间，最终出现了量子力学、相对论，广义相对论、狭义相对论。现在大家对量子力学的理解也还是有很多问题，即便物理学这样的基础学科也是经过几百年的发展才有它今天这样稳定、甚至是宏大的状况。人工智能学科实际上是非常年轻的学科，从它五十年代诞生到现在也就是七十年左右历史，真正深入理解人工智能的机理还有赖于更多人投入到基础研究之中。尤其是对于基于深度学习的深度神经网络，其泛化能力很难解释。不可解释的人工智能技术，在实际使用的时候也确实难以得到大家充分的信任，对于不可解释的人工智能技术，其可用性是打问号的。
我们于工作中发现，在现有的PGD技术框架下，对抗的鲁棒性和泛化能力是不可兼得的。我们发现泛化误差上限可能随着对抗鲁棒性的增加而变大，也就是泛化性能可能会随着模型变得更鲁棒而变得更差。这在一定程度上说明稳定性和可解释性之间的关系，所以也就启发我们从不同的方面来去研究可信人工智能。这也涉及到一个哲学思想——是整体论还是还原论的问题。从还原论的角度来研究可信人工智能的方方面面只是第一步，第二步还需要从整体论出发研究该如何综合治理可信人工智能。关于综合治理，我们和中国信通院发布的可信人工智能的白皮书中有一些初步讨论，希望能够为大家带来一点点启发。

议题三：一项技术要想长足发展要经过实际应用的检验，可信人工智能的这些新技术在实际应用中存在哪些机会以及在实际应用中存在的问题和挑战？

@谢涛

可解释性可以从两个视角来看，一是宏观治理角度，它提供解释来支撑的是事后追责，或治理过程中的审批等等方面，这里评审人要看AI系统是否合规等；二是用户使用角度，在用户实时使用AI系统过程中怎样能够提供比较好的解释，并使得用户能理解。用户能够利用提供的解释做出他们自己的决策，这都有很多挑战。比如从前置条件、后置条件角度分析一个AI系统，如果AI系统的输入是违反前置条件的，导致系统无法运行，这个过程能否给予解释。另外，深度学习不像经典机器学习那样能够容易提供一个可信度，来帮助用户更好地基于AI的推荐来做出最后决策。基于深度学习的系统很难判定和解释非法输入（违反前置条件的输入）或者其错误输出（违反后置条件的输出）；此外，如何解释系统认为自己产生了正确的输出，如何解释系统认为自己对输出的正确性不太有信心等，这都是比较大的挑战。

根据我们之前在移动安全的一系列研究，在安卓的最早期，安装安卓应用的时候是让用户决定是否批准应用的请求来访问一系列用户敏感数据的权限；现在新模式下，运行安卓应用时会有一个弹窗，窗口上列出简短文字来解释为什么这个应用需要请求访问特定的用户敏感数据，由用户看后来决定是否批准应用的访问权限请求。虽然这个机制存在，但是这个文字解释通常都不到位，而且根据不同用户人群解释应该不一样。针对应用背景知识比较丰富的用户人群，简要解释即可，但是对于不太熟悉的用户人群需要更详尽的解释，因人而异地解释且可用文字空间受限是很大的挑战。

目前学术界做出的一些AI模型形式化验证、认证的成果离应用于真实系统还有不小差距。通常经认证的鲁棒性（Certified Robustness）是在对抗性扰动（Adversarial Perturbation）这种比较限定的场景，对通用的输入认证还是比较难的。对于AI系统，模型的可塑性、易变性对软件测试也提出了新挑战。比如，测试输入的生成（特别是生成能反映真实使用场景的测试输入），测试预言的构造（测试预言是被用来判定系统的行为是否符合预期），测试需求怎么定这都面临很多挑战，现在只是刚刚开始，需要学术界、产业界紧密合作来攻关这些难题。

@张拳石

我们要发展新的理论去解释神经网络的根本现象，我们需要一个理论指导我们定义解释结果是否严谨、解释结果是否可以被验证。

宏观角度来看，就现在人工智能的发展或者深度学习的发展而言，理论发展与应用发展有很大的鸿沟。目前生活中真正好用的算法往往基于经验，基于对某类问题的认知而设计算法，而不是理论上推出的算法，即主要基于经验主义设计算法。在人工智能或者深度学习之前有很多理论，这些理论在深度学习时代对于深度学习网络不一定符合，很多理论已经不再有效。现在很多理论只能解释一些浅层或者不切实际的假设，所以理论和应用之间有很大的鸿沟。因此，我们要发展新的理论去解释神经网络的根本现象。这个角度来看，深度神经网络中一个很重要的现象是，它在信息处理过程中有语义的涌现，神经网络中层的信号并不是简单的高位空间向量系统，而是在逐层传递过程有一些有意义的信息涌现，这种信息涌现是传统人工智能理论无法解释的，但是正因为有信息涌现，深度学习网络才能更高效地处理信息，才能有更高的精度。所以，我们可能需要一些新的理论去描述神经网络的中层语义涌现现象，去建模它的表达能力。

第二，现在不同的解释性方法对同一个模型的解释是不同的，只能自圆其说，我们对它的解释没有统一标准，没有办法评价我们的解释是正确还是错误。我们需要一个理论指导我们定义解释结果是否严谨、解释结果是否可以被验证，如果用语义解释，语义是否严谨，这些问题背后都要有理论去定义它。对神经网络表达能力的解释也需要一个新的理论去建模神经网络表达能力——它对抗鲁棒的根本原因是什么、怎么样才能获得对抗鲁棒性、泛化能力更强的网络。现在很多理论研究都处于起步阶段，深度神经网络也找不到绝对可靠的方法。在这个背景下，出现了诸如对抗攻防、过程攻击、窃取模型、伪造样本、伪造图片等不同的方法以欺骗人工智能系统。而我们可以设计出很多有针对性的防御方法，但是攻防两端是长期之役，找不到一劳永逸的算法以得到真正可靠的系统，这可能是持久战。

要真正解决这个问题，还是要找到不同算法的本质机理，我们希望在更大范围内建立更广泛的理论体系，探索不同的解释性算法、不同理论的内在本质的相关性、现在的基于经验的算法本质的机理是什么等，进行去芜存菁。

议题四：从社会治理角度，政府、公众、社会团体应该如何共同参与到AI可靠性的发展当中来

@李正风

怎样在交互作用中审查我们的社会规则，反过来对社会规则做出必要的改变和调整，让AI技术的发展也起到移风易俗的作用，这也是我们处理社会治理与AI技术可靠性、可解释性技术关系的重要方面。

一方面，现在AI可解释性技术的探索比较注重把社会治理的规则、伦理的要求注入到技术的发展之中。这本身是社会治理和人工智能技术发展很好的结合，当然这个过程的确需要共同负责任的行为共同体的构建，不仅涉及到从业的技术人员，还涉及到企业，也包括行业协会以及政府监管部门。在AI技术发展过程中，对可能会违反用户的安全、健康、隐私保护以及社会公平公正等规则的行为能够及时予以识别和规制。

另一方面，随着AI技术的发展，特别是对AI技术可靠性进一步的追问，反过来使得我们发现社会中存在的问题，这是很有意思的问题。AI技术的发展使得一些社会问题更加充分地暴露出来，也使得AI可靠性问题变得更加受人关注。其实，当我们试图使AI技术发展更符合社会规则的时候，可以发现社会规则有的是明晰的、有的是混乱的，有的处在比较模糊的状态。从最普遍情况来看，入乡随俗是最经常采取的措施，这个“俗”里面可能包含一些需要改变的东西，比如通过算法对肤色进行统计关联的时候，我们会发现社会的一个常见现象是根据统计规则做判断。再比如一些科研单位录用毕业生的时候，往往设置一个门槛，非985高校、非211高校毕业生不录用，依据是什么？它可能找到统计的关联在里面，但是就会出现很多非211、非985学校的优秀个人受到这些规则的歧视，这就是在入乡随俗中需要改变的一些东西。

社会治理和AI的进步是相互促进的两个方面，通过发现社会规则中不正确的、需要改变的地方，在这样的交互作用中审查我们的社会规则，反过来对社会规则的体系做出必要的改变和调整，能够让AI技术的发展起到移风易俗的作用，这也是我们处理社会治理与AI技术可靠性、可解释性技术关系的一个重要方面。

@梁正

绝对不是单纯技术方案的问题，是技术方案和社会系统怎么嵌合的问题。

从公共管理的视角来看，不同的主体在规则构建中发挥的作用并不是在智能时代独有的现象，就像今天的交通规则，如果没有汽车文明，就不会有今天的交通规则；如果没有城市文明，就不会有今天的城市管理。所以，智能技术的发展需要我们建构一套适应智能时代或者数字时代运行的新的制度规则体系。这个体系是分层次的，底层是我们所说的一些公序良俗，农业社会也有公序良俗，比如不能到别人家的地里摘粮食。再往上是社会交往的基本规则、包括习惯法，再往上则是法律制度，成文法，所以这样一套制度体系是如此建立起来的。对于用户而言，可解释性并不是将所有权利赋予用户个人，这既不必要、也不经济。今天人们使用大量的工业产品时不会担心它是有毒有害的，为什么？因为背后有一整套监管、合规、标准、认证、法律、问责以及社会舆论等体系。AI也是一样，目前正处在建立这样一整套的体系过程中，所以这就是为什么要有算法问责制度、算法审计制度、强制保险制度的原因。比如对自动驾驶，从研发设计直到市场准入、检验、认证，再到应用、责任事故划分，这套体系建立起来以后就可以大范围地推广。所以，对于AI这类新技术的可靠性而言，绝对不是单纯技术方案的问题，而是技术方案和社会系统怎么嵌合的问题。

实际上在技术界，研发设计者对很多问题已经有了深入的思考。可以回顾历史，看看工业文明时代（包括劳动者从农场到工厂以后）大家怎么思考——比如工人需要什么样的保护制度，他怎么和机器形成协同的关系，所有这些都需要跨越社会群体的对话。而监管者应当发挥桥梁作用，把社会的诉求和可能的解决方案/手段对接起来，同时还要平衡可能存在的个人利益和公共利益之间的冲突。当前公共管理的前沿研究提出了“敏捷治理”理念，因为管理者要面对未知的、不确定的因素，处理全新的问题，最终起到社会沟通、利益平衡的作用，这是从公共管理角度对不同主体参与AI可靠性治理的理解。

议题五：强监管环境下，政府和企业在应对AI可靠性风险方面应该怎么样去联动，从而达到效率和安全间比较好的平衡点。

@陶大程

企业、政府、学术界应该站在一起，互为补充，形成密切合作关系，共同应对和解决人工智能可靠性风险的问题。

在应对AI可靠性风险的问题上，企业、政府、学术界应该站在一起，共同应对和解决人工智能可靠性风险的问题。政府层面、企业层面以及学术人士各有专长，应该发挥其所长，互为补充，形成密切合作关系。政府应当发挥政策引导性作用，通过制定和优化相关法律法规对全社会做出相关的指引，引导企业以及其他相关群体不断提高人工智能的可靠性。学术界应坚持科技向善，坚持发展有温度的技术，科技研发与实践应用过程中密切关注人工智能可靠性的问题。对于企业的实践来说，它是直接接触真实场景应用的，处于人工智能技术应用第一线，因而责任重大，更需要充分提高风险意识和应对能力来应对人工智能可靠性相关风险。

此外，政府的引导政策和监管，学术界的技术支持对于企业在产品的实践中，控制人工智能可靠风险，同样发挥着重要作用。人工智能可靠性风险的问题事关重大，相信随着政府、企业和学术界的密切合作，各尽所长、各尽所能，这个问题能够得到良好控制和解决。

在京东探索研究院最近发布的可信人工智能白皮书中，我们以企业和学术界的双重身份，针对这个问题给出了我们的愿景。我们认为对于可信人工智能的各个方面都应该从理论出发，建立可测量的度量标准，包括稳定性、可解释性、隐私保护能力、公平性等等，在此基础上政府、企业、学术界通力合作，共同建立人工智能算法的行业标准和监督规范、机制。此外还应该共同努力实现可信人工智能各个方面的逐步统一，建立起一个囊括可信人工智能各个方面的统一框架和理论，并在此基础上有效地建设其监管框架。

@谢涛

产学研合作特别关键。

学术界研究者更多是技术方案提供者的角色和产业界互动，进行产学研合作特别关键。今天所讨论要解决的问题不光是AI技术和AI模型本身，它是整体系统的问题，也包括人（比如用户）和AI系统怎么互动。对于在产业界第一线实践中凝炼出来的问题，需要有比较好的渠道能够让学术界接触了解，需要通过产学研合作一起来推动问题的解决。

@李正风

要改变仅仅是技术人的自我定位，伦理意识和共同责任意识的不断推进才能后继有人，才能有广泛的社会基础。

要促进我们国家AI技术的健康发展和AI产业的健康发展，确实需要各个方面协同的努力。和AI决策可解释性问题相关联的职业修养和伦理意识方面的教育是非常重要的问题，不能仅仅只是停留在精英层面的认识或者是学术带头人的理解，需要变成每个从业人员共同的认识。所以对AI企业来讲，就会面临对算法的设计者、编程者等等大量的执业人员在这个方面的教育和培训。在高校里面，伴随着AI技术的不断发展，特别是关于AI决策可解释性问题的引入，在大学本科生、研究生的培养中，伦理意识、社会责任的意识，要和人才培养紧密地结合起来，要改变仅仅是技术人的自我定位，伦理意识和共同责任的不断推进才能后继有人、才能有广泛基础。

观众提问

问题：在企业和监管者之间寻求平衡的时候，怎样区分哪些是规则问题？哪些是技术问题？二者之间的边界在哪里？

@梁正

只有建立起一套公平合理可持续的制度体系，在平衡各方利益的基础上，生产力才能够得到真正释放和应用，不能偏废任何一端。

这个问题也是研究公共管理、乃至社会科学的基本问题。什么是规则？如果从理论层面理解，主要是解决人与人之间的关系。生产关系是解决人和人之间的利益关系问题，技术更多是生产力，所谓的生产工具。按照马克思主义者的认识，生产关系决定了生产力。AI作为新的智能工具，从其应用背景来看，现在正处在这样的阶段，只有建立起一套公平合理可持续发展的制度体系，在平衡各方利益的基础上，生产力才能够得到真正释放和应用，不能偏废任何一端，比如，如果将所有决策权都交给个人，可能发现数据交易、模型训练最后完全没有办法做，这是极端情况。另一个极端情况则是，用户完全没有选择权，都是由企业研发设计人员决定，这里如何保护个人利益，如何平衡公众和个人之间的关系，从局部角度没有办法解决这个问题。

所以，如果我回答这个问题，可以归结为简单的一句话，所谓制度规则是基于对人类行为的规范，它要解决的是人与人之间的关系，而技术手段是解决人与物，物与物之间关系的。相对于传统工业文明，人工智能的出现使得技术的概念超出了物物关系的范畴，这是和过去的不同，因为它参与到决策当中，但基本的原理还是适用的。

@沈超

我觉得这个命题叫做如何利用AI预防或者预警黑客，首先需要搞清楚，黑客是怎么干事儿的，现在的黑客已经不是原来的黑客了。技术在发展，黑客也在学习，现在黑客也会用自动化、人工智能的手段让攻击变得更加有效。举个简单的例子，黑客会学习AI中的漏洞，利用AI中存在的风险发动攻击。黑客会利用数据降维中存在的漏洞，比如利用Siri在不同频率段对信号显示不同，面向Siri进行云的攻击。同时还会利用一些自动化的手段，比如原先在系统探测渗透时找到系统条件中最薄弱的环节，然后把这个桥打断。现在黑客可能用自动化手段做一些脚本，让脚本去跑比自己翻的效率要高，并且可以同时翻多个网站、多个域名，这两年利用自动化AI的方法去做攻击的例子越来越多，原来人为去做，可能只能做几千个网站，几万个域名，但可以全网去做，不仅仅只是扫描域名所有的漏洞，甚至可以做更深层次的渗透。这都是现在所谓的黑客用得手段。

反过来看，如何用AI来防范和预警黑客，这是道高一尺魔高一丈的事情，很难说有一套方法能把黑客全部防住，这是不可能的，因为黑产市场的利益链非常大。但是AI的优势在于什么？我认为有两点：第一，AI是具备自我训练和检测的手段，它可以在大数据堆积的基础之上，对原来很多的历史数据进行聚集和汇合，可以对以往或现有的网络平台、网络层的攻击方式进行有效预防，以此提高攻击的门槛。第二，AI可以是一种集中的方法，从防御手段来讲，我们希望安全防御可以是矩阵式的，通过多层的防御模式实现。比如多因子印证，综合各种方式将多种机器学习的手段都放在一起，构建一个全方位的防御手段。但是，这个全方位只是人能想到的全方位，因为黑客的攻击往往就是一击必中，针对一个特定的点一击致命。

主持嘉宾：崔鹏

主讲嘉宾、讨论嘉宾：梁正、崔鹏、张拳石、谢涛、李正风、陶大程

文字整理：卞哲、蒋礼、未来论坛 | 排版：未来论坛

未来论坛是当前中国最具声望的民间科学公益组织，由一群崇尚科学、热心公益的科学家、企业家于2015年共同发起创立。自成立以来，未来论坛秉承“弘扬科学精神，助力科创兴国”的宏伟使命，全面推动产学研资政融合和大众科普事业发展，矢志作为科学面向公众的“传播人”、科学界和产业界的“对接人”、以民间资本激励科学突破的“推动人”。迄今已凝聚了数百位全球杰出科学家、顶尖投资人和卓越产业领袖，是中国唯一的商学跨界的科学公益平台。未来论坛于2016年创设未来科学大奖，奖励主要在大中华地区做出具有国际影响力的原创科研工作的科学家。

除此之外目前已形成以科学为源动力助推产业、资本、城市协同发展的未来论坛·城市峰会、促进产学研对接与发展的高端闭门研讨会议——闭门耕、面向社会公众开放的理解未来月度科普公益讲座，以及围绕青年科学家开展的未来•局（Future Reception）和线上研讨会（YOSIA Webinar）。

未来论坛以“科学改变未来”为使命，拥抱对科学事业的信念与梦想，勇敢前行！

专题直播&回放链接：

https://www.koushare.com/category/singlecolumn/200

文章内容来源于“未来科学论坛”公众号

为满足更多科研工作者的需求，蔻享平台开通了各科研领域的微信交流群。进群请添加微信18019902656（备注您的科研方向）小编拉您入群哟！

蔻享网站www.koushare.com已开通自主上传功能，期待您的分享！

欢迎大家提供各类学术会议或学术报告信息，以便广大科研人员参与交流学习。

联系人：李盼 18005575053（微信同号）

· 点击左下“阅读原文”观看本期直播回放

逃出缅甸红莲宾馆

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

离婚当日约会新欢，瘫痪在床却想甩锅前妻，做人不能太嘚瑟！

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

【未来科学论坛】AI决策的可靠性和可解释性（下）|「AI伦理与治理」系列4期实录

您可能也对以下帖子感兴趣

逃出缅甸红莲宾馆

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

离婚当日约会新欢，瘫痪在床却想甩锅前妻，做人不能太嘚瑟！

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

生成图片，分享到微信朋友圈

【未来科学论坛】AI决策的可靠性和可解释性（下）|「AI伦理与治理」系列4期实录

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡