拆解全球性“健康码”伦理难题：算法治理的“三道坎”

白泽财经 2020-09-24

The following article is from 腾云 Author 朱悦

新冠疫情的全球感染人数已经突破二百万。
世界各国已经意识到，要想战胜病毒，在研发疫苗、提升核酸检测数量之外，还必须让“追踪病毒”的速度超过“病毒传播”的速度。
于是，基于接触者追踪等技术，世界各国开发出了不同模式的“健康码”，希望在第一时间获取感染者与接触者信息。
对隐私问题等伦理问题的担忧也随之而来，政府、媒体和公众纷纷展开讨论。新冠疫情或重塑数字时代下人们的隐私观念。
对健康码的讨论具有建设性，它可能会影响未来的制度建设。问题是，我们该从何处谈起？

健康码已在全国铺开。一手绿码，通行爽利；一屏红码，隔离走起。

随着疫情的全球性流行，世界各国也纷纷研发自己的“健康码”，各方也频繁的就伦理隐忧发声。

在算法治理“远帆将来”的时刻，对健康码的研究，还可能成为未来制度建设的先声。在这期间，伦理问题尤其重要。

当我们讨论健康码的伦理问题的时候，我们究竟在讨论什么？如果将健康码的原理拆成三步去理解，或许可以全面展示该议题的关键所在——

第一步，健康码需要收集许多个人信息，这些信息需要得到充分的保护；

第二步，算法处理这些信息，将个体分类为“红”、“黄”、“绿”等类别，过程中的算法伦理不容忽视；

第三步，根据分类，卫生部门、交通关口、企业和学校等单位对个体施以“区别对待”，这些措施也需要合理而正当。

总之，无论是健康码还是其它算法治理措施，都需要迈过以上三道坎。

01第一道坎：个人信息保护

疫情时分，健康码与个体如影随形，与个人身份绑定，反映个体活动情况。这一过程不可避免地涉及了许多个人信息，其中有些信息又相当敏感。

由于健康码生成方式不同，“集中式”和“分布式”下的健康码，收集的范围也有相当不同，此处简要分别讨论。

“集中式”健康码运用后台打通的数据库和个体填报信息，直接判断颜色。根据各地情形不同，纳入信息也有些许不同。

一般而言，之前是否属于“确诊”或“疑似”、近期活动轨迹和地区、近期搭乘航班或车次等，都会成为分析对象。部分地区还会采集居住地、是否曾购买发热药物等。根据疫情的变动和后台的建设，这一范围可能还在不断扩大。

“分布式”健康码的原理稍有不同。简而言之，就是个体各自在手机上安装应用，应用再以蓝牙定位或者超声波的方式，测量附近有无其它安装同款应用的个体经过，有则记录下来。

如此，可以形成细致的运动轨迹和接触者网络。一旦有个体出现状况，接触个体都会收到信息。此类健康码收集的信息类型相对简洁，但至少也会涉及个体相当全面的社交网络。

无论采取何种形式，健康码都会涉及个人信息的处理。

遵从现有涉及个人信息的法律法规国家标准，切实以保护个人信息在生命周期各环节的安全为底线。这一点又体现为防止过度收集，注意最小化原则，做好信息安全，禁止分享公开，可行范围内匿名化，可查可用不可导出，等等，都已体现在各地的健康码实践中。

不过，还有三点值得注意。

其一，有关信息应视为个人敏感信息。

一方面，无论是病史、行踪轨迹，还是药物记录、社交网络，单独均足以达到“影响个体人身或财产安全，或导致身心健康受损，或导致歧视性待遇”的“敏感”标准；另一方面，对这些信息的处理方式，足以影响个体能否获得迁徙、劳动或受教育的权利，因此可能达致“敏感”标准。这一点会影响合宜的信息保护水平。

其二，“集中式”下的隐私风险较为凸显，“分布式”下的风险则容易被忽视。

“分布式”健康码程序通常采取匿名标识符，无法直接识别至个体。然而，从现有安全领域研究看，通过轨迹或社交关系识别个体，既不困难，准确率也不低。因此，个人信息保护工作仍不能轻忽。

其三，在具体落实保护工作时，一头一尾两个环节，需要进一步分析。

在寻求个人信息处理合法性的头部环节，尽管重大公共利益足以构成合法性基础，但从维护个体隐私权、进一步消除隐私风险的角度出发，获取明示同意并展示隐私协议，是更加合适的做法。

实际上，这也是算法伦理领域的共识。在抗疫接近尾声、个人信息处理完毕时，如何处理相关信息？是简单封存，还是采取加总等匿名化措施后用于研究等用途，又或者是删除，此处需要因情势制宜的讨论。

一般而言，信息匿名化可能是此处底限。

02第二道坎：算法伦理

健康码的机理，是在各类个人信息的基础上，根据感染风险对不同个体分类。这一工作涉及算法，自然也涉及近年来热度骤升的算法伦理。

何为算法伦理的核心内容？各国暂时各执一词，但也有一些共识。在健康码语境下，除开已经提到的隐私，“算法可解释”，“算法可问责”，和“算法公平”，三者共同构成眼下最需要注意的算法伦理。

“算法可解释”原则的精神很朴素：如果一则算法的运行足以影响个体迁徙、劳动或受教育的权利，那么，个体有理由知道这个算法究竟在干什么。

对很多具体的场景，“算法可解释”很可能是法律中“正当程序”原则蕴涵的要求。因此，需要对健康码作出一定的解释。算法运作的具体原理不同，需要的解释相应不同，不妨分两种情形讨论。

当前而言，大部分地区的健康码原理相对简单：首先，设定一些判断条件，“个体近期是否曾前往疫情严重区域”，“个体轨迹是否与其他确诊或疑似个体重合”，“个体是否曾购买发热药物”，等等；其次，将数据与条件结合，触发特定条件的生成“红”或“黄”码，其余生成“绿”码。

对这样相对简单的算法，除非存在作弊风险，直接公开逻辑，便是最好的解释。

当然，随着时间的推移、数据资源的丰富和研究人员的攻关，健康码原理可能日趋复杂。比如，研究人员可以根据健康码的既往防控效果，尝试更为复杂的分类算法，以提升分类的准确率。如果是线性或决策树模型，解释依然可能；不过，模型有可能在技术层面即难以解释，构成字面意义上的“黑箱”。此时，具备可解释性，应当成为选择模型时的考虑之一。

如果确实需要采取难以解释的模型，应该一并对原理作出准确易懂的说明。

可解释指向可问责。

健康码不可能完全不出错，重要的是在出错时及时纠正、在造成损害时明确责任。这又进一步指向两点：第一，在制度层面建立报错和复核机制方便；第二，在技术层面，为个体定位错误行方便。这样，报错、复核和寻求其它救济都会更容易。

根据个人信息保护的相关内容，个体有权知晓自己的哪些信息参与了健康码的生成，也可以知道这些信息的内容。如果算法具备可解释性，个体能够知道个人信息如何与健康码内置的逻辑交互。既知输入，又知算法，个体就能容易地定位错误的具体内容。此外，如果个体在利用复核或类似渠道时能够把问题表述得更加清楚，行政机关的负担也会相应下降。

算法公平，是另外一项堪称共识的伦理原则。

“数字鸿沟”的广泛存在，意味着并不是所有人都有知识、有条件充分利用健康码。借助人工验证等渠道，尽量将鸿沟“填平”，为无法利用健康码的个体提供等效的验证方式，是公平的第一项要求。实际上，保障个体合理的、免于算法的决策，也是《统一数据保护条例（GDPR）》等立法进展所体现的趋势。

公平的第二项要求，是避免基于敏感特征的歧视。

在健康码语境下，歧视集中在地域特征上。这里要求健康码系统即时跟进最新的各地风险层级通报，在判断条件中及时移除疫情风险已然不高的地区。之外，在任何情形下，都不应该在判断条件中使用性别、种族、国籍等敏感特征。

这些特征和感染风险的关联十分有限，对实际防控未必有太多帮助；反之，一旦此类歧视引起国内或国际范围的舆论风潮，代价或将十分惨重。

除去第一节已经提到的隐私，和第二节讨论的三种价值，算法伦理上还有一些颇为重要的原则。比如历史悠久的“不作恶”或“向善”，以及欧盟正在大力倡导的“可信赖”，等等。这些原则和之上的内容有许多重叠。

如果健康码制度充分保障隐私、原理容易解释、责任易于定位、善待弱势群体，这一制度也就在很大程度上值得信赖、可为“科技向善”的标杆。

03第三道坎：健康主义下的区别对待

健康码之所以牵动人心，关键还是对现实生活有实实在在的影响。

要不要隔离十四天，涉及到对人身自由的限制；能不能在不同地区间流动，能不能复工复学，在工作场所和学校的活动是否受限，都涉及对个体基本权益的限制。以对健康状况的评估（这里是感染风险）为依据，区别对待不同的个体，这类做法有个概括性的名称：“健康主义（Healthism）”。

当前疫情中的健康主义立场显然有其合理性。不过，这不能逾越所有的基本权利。承认这两点后，健康码中的政策抉择，就又转化为包罗众多因素的平衡问题。由于篇幅所限，短文无法尽数展开。不过，对此类平衡，一般需要注意至少三类要点。

首先，在社会层面，“健康”、“卫生”甚或“洁净”，常常不是均一的概念。在健康码这一场景中，定义相对明确：感染特定类型病毒的概率。

然而，随时间推移，如果社会观念发生变动，将“感染”与“不洁”、“危险”甚至“敌对”相关联，甚至因此排斥有关群体，这将会增加健康码逾越正当尺度的风险。同时，如果这一算法治理模式得到推广，并得以应用于其它因健康状况而差别待遇的场景，这些推陈出新的“xx码”同样需要越过三道坎，我们并不能默认其正当性。

其次，在考量健康码的运用是否过度时，角度务求全面。

如果只考虑单一限制，比如说不能复工是基于健康码的限制，似乎总是合理的。但如果用更完整的视角看待，将个体各方面权益可能因健康码受到的限制综合考虑，相关公共利益与人身自由、受教育权、劳动权等众多因素，可能也会相应改变。这一思路也可以预防健康码应用的过度泛化。

最后，随着时势日日而新、科研时时而前，人类对病魔的了解程度也在不断深入。

先前施加的一些限制，或许已显不足：例如，倘若存在新的传播途径，可能需要更新相应隔离措施；反之，限制牵涉的范围，可能因对病毒的深入了解而缩小：例如，对各地区风险评估的颗粒度越精细，限制涉及的地域范围相应也会更精确。

总之，既然公共利益和基本权益间的最优平衡频繁变动，在保障安全的前提下相应迭代调适健康码设计，可谓应时之需。

疫情面前无小事，健康主义领域没有简单的问题。在如此情形下决断，总需要非凡的勇气、智慧和技艺。除非确实存在抗疫效果上没有差异、对个体权益限制又显然更少的方案，对健康码的采用，通常合理而正当。

当然，这并不意味着要放弃审视和反思，对各种权利的综合考虑，结合科学进展思考限制更少的方案，都应该始终“在路上”。同时，在脱离紧急状态以后，这些思路不仅不会过时，还会为防止万“码”奔腾的滥用筑起坚强的堤防。

04结语和展望

本文以高度简化的方式介绍了健康码的原理，并探讨了如何以比较系统的方式反思健康码的应用。

为了成为“范本”、纾解在法律和舆论层面的担忧，健康码需要越过三道坎：

一是已经比较完备的个人信息保护，难点主要在于细部的合规；

二是方兴未艾、正形成共识的算法伦理，健康码可能，也应该合乎这些伦理，实现“科技向善”而可以信赖的愿景；

三是从利益平衡角度出发，对“健康主义”的省思，这里可能蕴涵着实现算法善政的根本性问题。

“三道坎”的思维方式可以推广到更一般的算法治理场景。无论是持续热议的征信算法，还是日益升温的智能司法，又或者是正在涌现议论的智慧城市，都可以从“三步走”的思路出发，系统地评估、平衡、评判得失。

首先，这些算法需求什么样的个人（敏感）信息？其次，这些算法的运作机制，是否切合目前公认的伦理原则？最后，因算法的输出而在现实中区别对待，是否合理且正当？笔者相信，这是一种相对全面、而又便于应用的思考出发点。

作者：朱悦

来源：腾云

往期精彩回顾

重温哈耶克的22条金句

独资的汇丰人寿：希冀与挑战并存 | 深度

蒋凡玩漏，黄峥够嗨

好消息：香港拟与内地协商两边一起免“隔离”！

马斯克：我不认同巴菲特，美国太多精英从事金融和法律了

必须重新定义“正能量”

反向激励，在加速这个社会的黑化

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间