段永朝 | 可解释的AI：到底想解释什么？

段永朝苇草智酷 2023-04-07

作者 | 段永朝 苇草智酷创始合伙人、信息社会50人论坛执行主席

转自 | 段永朝读书

编者按：贴文为2022年12月31日，参加第四届全国科际法学论坛的发言内容。因时间所限，现场发言时长为8分钟，这里所贴内容略有增加。

感谢主持人周雪峰教授。感谢余盛峰教授邀请，很荣幸参加第四届全国科际法学论坛。

我报告的题目是：可解释的AI：到底想解释什么？

过去6年来，AI强大的威力一次又一次刷新人们的认知，比如人脸识别准确率超过97%；谷歌智能语音问答识别准确率达到92.9%（2019）。再比如最近一个多月来，美国谷歌公司发布的聊天机器人ChatGPT，建立在一年前开发的巨量参数的大模型GPT3.5的基础上，它的惊艳表现震惊了世人。连钢铁侠马斯克也惊呼：“CahtGPT好得太吓人了，我们离危险的、强大的人工智能不远了。”

AI的强大能力在带给人震撼的同时，也提出了大量深层次的问题，其中智能技术的伦理问题就是一类重要的问题。智能技术的伦理问题，可以有很多不同的维度来进行深入分析，但无论如何其中都包含一个共同的核心内容，就是AI的透明度和可解释性。2021年11月，联合国教科文组织通过了全球首个《人工智能伦理建议书》，提出了十大AI伦理原则和11个行动领域，其中就包括“透明性和可解释性”。

我们先举两个例子，理解下什么是AI的可解释性。

一个是金融：比如银行发放贷款，往往借助AI审查贷款申请人的背景和申请材料，根据模型判断是否给予贷款。大家知道，金融风控模型是非常复杂的，这里AI审查的主要目的就是判断其中是否有金融欺诈。对金融机构来说，算法给出的结果是否可信，主要看算法能否接受进一步的盘问，这就是解释能力的问题。遗憾的是，目前AI贷款审查只能做一些辅助的工作，令人信服的解释性还做不到。

医疗的例子也比较典型：AI辅助诊断在现实中的应用越来越多，对于基于人工智能算法模型给出的诊断建议，医生能否采信？这背后也有AI解释性的问题。如果算法不能给出合理的解释，医生采纳或者拒绝建议，都会冒很大的专业技术风险或道义风险。

前不久的卡塔尔世界杯，采用AI辅助越位系统，让人眼前一亮，效果也很好，但也有很多的争议。

毋庸置疑的是，未来AI将用在大量生产生活场景中，且逐步通过自动化、智能化技术实现辅助、代替人类的决策，那么问题就来了：人类能信任机器吗？

人类能否信任机器，取决于机器能否对自己做出的决策、判断、结果给出人能接受的解释。

对“AI可解释问题”大致说来，人们需要三种类型的解释：一种是工作机理的解释；一种是决策结果的解释；一种是智能算法所依赖的方法论的解释。

AI可解释问题大约是2016-2017年业界逐渐关注到的一个新问题，也是伴随第三波人工智能热潮迭出的关键问题。美国国防部高级研究计划署（DARPA）曾对这个问题给出四个要点的简要说明：

1）用户需要知道AI为什么这么做，或者为什么不这样做；

2）用户需要知道AI什么时候可以成功，什么时候失败

3）用户需要知道什么时候可以信任AI

4）用户需要知道AI为什么做错了

AI可解释问题有三个关键词：Interpretability，Explainabilily，understandability

这三个词都跟AI可解释有关，有时候都被翻译成可解释性、可理解性的意思。到底什么是AI的可解释性？迄今为止学界和业界其实众说纷纭。因为时间关系，这里不去做进一步的深究。这里推荐开源联盟名誉主席陆首群教授几年前组织编写的一种新颖的讨论形式《人工智能跟帖》，里面有较为全面的梳理。

粗略说，三个词的意思是：

Interpretability：把机器的结果、行为和解释，翻译成人话

Explainability：让机器对自己的结果、行为，给出某种解释，并且考察这种解释能否自圆其说

Understandability：人类对机器的解释做出再诠释

就从这三个词语的使用，就可以看出AI可解释问题已经混乱到何种地步了。

我觉得AI可解释问题至少牵涉4个方面的重要议题：

1、机器的符号表达、算法语言、流程逻辑中内嵌了何种数学物理思想，这些思想的解释力是否继承、遗传、渗漏到算法框架中？比如贝叶斯算法

2、机器所操作的对象，如数据、关系、算子、结构等，在指称、定义、赋值、封装、分类、聚合、演算、迭代等操作的过程中，是否对数据标签、映射关系、符号语义等，在多大程度上保持了清晰性、确定性的要求？比如各种深度学习算法

3、对人类而言，现实空间、问题空间、符号空间、数据空间、模型空间、语义空间等多种空间的集合、子集，以及这些集合、子集中的对象之间的关联、交叉、映射、绑定等等，是否具备某种可以辨认、描述、传递的认知结构，这种认知结构是符号化的吗？

4、对于机器所能给出的解释，人类在多大程度上，或者如何判断这种解释处于可接受的范畴？这种可接受的空间、时间条件是什么？这种可接受的判定是否有普适性？

这些问题我还都没有深入的思考，还需要进一步研究、学习。

在我看来，AI的可解释问题之所以重要，在于两点：

1、AI可解释问题触及知识论的一个核心问题：何谓可信知识？或者说，何谓知识的可信基础？

2、东西方文化对可信知识的理解是否有共同的基础？

这两个问题的重要性，不亚于AI的可解释问题。甚至我觉得还要超过AI的可解释问题。过去几年里，诸多的高科技公司在提供着各式各样的AI可解释的所谓解决方案，他们已经把这个问题产品化、商业化了。对科技商人来说，AI可解释问题很重要，也很简单，只要将技术的两面性控制在适当的范围就可以了。他们认为AI可解释问题是一个实践层面的问题，人类要学会与“好的吓人”的AI共存共处。

这听上去没毛病，但结合我刚才提出的两个问题，我觉得AI可解释问题并没有那么简单。这就是我的副标题叫做：到底想解释什么？

可信知识是西方知识论的核心要义。古希腊哲学家柏拉图、亚里士多德的知识论中，关于永恒世界、不可改变的世界的知识，被看作可信知识。这一传统在西方文化延续至今，并繁衍出茂盛的知识树。用法国思想家德勒兹的语言，这种树状结构的知识，是可信知识的经典模样。

由此看来，寻求AI的可解释性，其实代表着某种传统形而上学理念在智能技术应用和解释中的复活。这种复活希望将强大的AI，重新拉回到严格因果论、确定性、明晰性的轨道上来。这种基于可信知识信仰的AI可解释性，或许我们可以看作某种知识生产的源源不断的动力。

对东方文化而言，简单说历史上从来就没有“可信知识”这种自然观、世界观。就连“知识”这个词语本身也粘连了太多西方文化的色彩。从东方文化说，我们所理解的知识，更多指的是“见识”。这个问题很复杂，不是三言两语能讲清楚的。我只是朦胧感觉到，讨论可解释的AI，是否可能增加一些东方文化的视角，而不是陷落在西方语境中亦步亦趋。

从东方语境入手，是否有可能提出两个问题：

1、可解释的AI到底能做到何种地步？

2、我们在多大程度上可以接受不可解释的AI？

这两个问题特别有东方味道。从我们本土文化直觉看，我们并不是很关心，是否有所谓一以贯之、环环相扣的解释，我们更关心“限度”、“范围”、“适用条件”，更关心此一时彼一时的因时因地，更关心相由心生、移步换景的体验感。

简单小结一下：可解释的AI从文化角度说，可以有两种视角，一种是“以人为本”的视角，也是人类中心论视角，这种视角偏西方文化基调，比较刚性；另一种是“以人为选项”的视角，人是自然的一份子，是天人合一的关系，这种视角偏东方文化视角，比较柔性。

讨论可解释的AI，如果能纳入更大的文化视野，或许会相互借鉴、相互启发、相得益彰。重要的是，智能技术已经发展到这样一种地步：靠单一文化背景已经难以驾驭智能技术的走向了。

谢谢大家！

——END——

苇草智酷简介——

苇草智酷（全称：北京苇草智酷科技文化有限公司）是一家思想者社群组织。通过各种形式的沙龙、对话、培训、丛书编撰、论坛合作、专题咨询、音视频内容生产、国内外学术交流活动，以及每年一度的互联网思想者大会，苇草智酷致力于广泛联系和连接科技前沿、应用实践、艺术人文等领域的学术团体和个人，促成更多有意愿、有能力、有造诣的同道成为智酷社区的成员，共同交流思想，启迪智慧，重塑认知。

苇草智酷好文推荐

段永朝 | 精神向往：从数学中感悟求真的艰辛与欢乐

段永朝 | 人的进一步“硬化”，恰恰是艺术最大的危机

段永朝 | 数字世界的三个基本问题

段永朝 | 《尤利西斯》给我们带来哪些挑战？

段永朝 | “认知坎陷”和“锁定”是什么关系？