编者按
关于人工智能安全和监管,本公号发布过以下文章:
今天和大家分享的是朱悦的一篇文章。
针对算法开展执法,首先需要清晰描述算法。清晰描述算法曾经是个难题,但正在实践中变得简单。有的算法本身就相对简单。即使对于复杂的算法、耦合的算法或者处在前沿的算法,欧洲的新近执法依然能够提供有用的思路。随着执法的继续推进和技术与工程的发展,清晰描述算法逐渐不再困难。
简单的算法
本身容易描述的算法有至少六类。一是基于规则的算法,或者是由规则组合而成的树或森林。二是特定类型的回归算法。三是特定类型的分类、聚类、最近邻或异常检测算法。四是卡尔曼滤波等其他相对“古典”的算法。五是由这些算法组合得到的特定算法。六是能够借助前述算法有效地近似的其他算法。
大部分针对算法的执法都没有超过这六类的范围。仅举两例。首先是正在欧盟法院待决的威斯巴登行政法院6 K 788/20.WI一案。其中涉及的征信算法根据相似程度将个体分类,然后按类赋分。其次是著名的美国COMPAS案。尽管涉案算法并未公开,根据相关数据集,XGBoost可以很好地近似相应算法。[1]
复杂的算法
针对算法的深入执法不可避免地涉及更加复杂的算法,尤其是深度神经网络算法。匈牙利数据当局新近执法的布达佩斯银行案是其典例。简言之,银行使用复杂算法分析客服电话录音。对于服务质量的分析结果包括流程遵从、应答及时和通话情绪等更加细致的指标。分析结果可能影响到回访安排和内部考评。
通过调取内部备忘录、查阅算法文档、对算法开发者取证等方法,匈牙利当局细致描述了算法。不仅包括诸多输入特征,也包括其具体原理。例如,流程遵从主要取决于是否说出指定接待语,应答及时通过测量沉默时长实现,情绪检测是简单的分类,等等。然后在此基础上做出了颇为细致全面的处罚决定。
多个耦合的算法
在大型互联网平台等具体场景中,数据当局面临的不再是一个算法,而是若干算法耦合而成的平台、管线或系统。相关的重大执法需要解决如何描述多个耦合算法的难题。意大利数据当局查处的在线配送平台Foodinho案是其典例。为解决本案中的算法公平性等核心争议,需要清晰地描述平台的派单系统。
通过调取多种文档、审查前端后端、跨国合作执法等方法,意大利当局将派单系统分解为三部分。一是派单时段是否属于高需求的分类。二是骑手评分,由用户评分(15%)、高需时段响应(35%)等五类变量决定。三是通过配额或加权在特定时段偏好高分骑手。基于系统分解及其具体参数,即可做出细致决定。
技术前沿的算法
随着数据隐私等领域执法关口的前移,数据当局需要描述正在开发的前沿算法。英国竞争法当局对于谷歌隐私沙盒的执法是其典型。简言之,谷歌曾经提议借助联邦分组学习方法(FLoC),实现所谓隐私保护的兴趣广告。然而在2020年英国当局介入时,关于FLoC的实现方式和技术细节信息仍然寥寥。
通过查阅技术文档、对开发者取证、援引利益相关方证词等方法,英国当局全面描述了FLoC。不仅明确了技术机理是基于SimHash的聚类,还讨论了两种效率和隐私各有优劣的计算方式。既深入到理论的比特数和具体部署场景分析隐私,又展示了基于实验的评估。各方对其隐私保护效果有了更深的认识。
不再如此困难?
欧洲当局不仅针对简单算法开展执法,也在实践中成功描述了复杂的、耦合的和前沿的算法。综合其方法,不外乎睹文知人二事。目睹需求、架构、设定和运维文档,求诸合规、开发、产品和利益相关方,即可解决绝大部分难题。对于特别重要的算法,常常还可以援引来自熟稔技术的相关方的关切和审计。
技术和工程的发展进一步加强了上述方法的威力。今日正在进行的案件尚可援引其他五个方面的发展。一是可解释性研究中算法近似研究的发展。二是模型卡和数据卡的发展。三是技术社区内开源平台的不断兴盛。四是处理者内部算法平台和特征平台的发展。五是实验方法逐步为监管与合规所用。等等。
余论
清晰地描述算法曾经是个难题。随着各地执法实践的展开,描述复杂的、耦合的、前沿的算法逐渐不再困难。文档和人两个抓手,随着技术与工程的发展愈发牢固。虽如此,逐渐半透明的黑箱依然庞大坚固。如何在程序中把握合适的文档和人,如何时刻紧密结合关键的技术和工程进展,依然有待实践的探索。
[1] 无法完美近似的原因主要有二。一是COMPAS算法的公开文档并未完整清晰地描述其假设,二是个体问卷等关键的特征没有公开。一般地,可以参见“XAI Stories”一书。
主要参考文献
本案参考的主要案件分别是VG Wiesbaden:6 K 788/20.WI案、COMPAS案、Garante:9675440案、Nemzeti Adatvédelmi és Információszabadság Hatóság:85-3/2022案和Competition & Markets Authority隐私沙盒案中的诸多程序和决定文件。有关COMPAS的近似问题,可参考“XAI Stories”。
DPO线下沙龙的实录见:
本公号发表过的关于数据要素治理的文章有:
关于业务场景中数据跨境流动的文章如下:
关于保护网络和信息系统安全的相关文章包括: