导读:像人一样,算法容易受到偏见的影响,这些偏见会使他们的决策“不公平”。在决策过程中,公平是指根据个人或群体的固有或后天特性,对个人或群体不存在任何偏见或偏爱。随着偏见在现实世界中愈加凸显,机器学习中的公平问题近年来成为研究热点。在北京智源大会特邀报告环节,美国国家科学院和工程院双院院士、哥德尔奖获得者、Differential Privacy发明者Cynthia Dwork详细介绍了实现算法公平的路径和挑战。Cynthia Dwork,美国国家科学院和工程院双院院士、哥德尔奖获得者、Differential Privacy(差分隐私)发明者。1979年,B.D.Underwood 在《Law and the Crystal Ball:Predicting Behavior with Statistical Inference and Individualized Judgment》一文中,首次用临床决策(clinical decision)代替了统计推断方法,她认为这是两种不同的论证事实的方法。这篇文章涉及的问题在今天仍备受关注,包括决策预测(decision to predict)。同时,她也提出了一个问题,如果要使用统计方法,应当如何选择作为决策基础的属性和特征。这个问题,一直伴随我们至今。2021年夏天,微软硅谷研究室开启了这个对领域的探索。首先确定的是算法公平的定义,研究人员同时定义了两种主要的公平性保证(fairness guarantee):个体公平性保证和群体性公平保证,恰好与 30 年前 Underwood 的说法相呼应。
群体公平要求不同独立群体之间的决策统计存在某种关系。例如:(1),统计学平等(statistical parity):假设被录取的大学生群体在统计学上与总人口平等,那也就意味着,如果总人口中的 48.7% 是女性,则学生中也有 48.7% 是女性;(2),积极个体的分类平衡(balance of positive class),当给群体中分配到的积极个体评分时,对于两个不同的群体 A 和 B,A 群体中积极个体的平均分数应当与 B 群体中积极个体的平均分数相同。
实际上,理想的群体公平很难实现。举个例子,某家牛排店要给两个群体 A 和 B 做广告,但负责人很讨厌 B群体中的成员,于是,他的广告传播给了A 群体中的每一个人,而在 B 群体中,却只向素食主义者传播。结果显而易见,虽然他的的确确同时给两个群体发广告,但并不希望 B 群体中的人来牛排店用餐。群体公平决策最大的问题在于,自然状态下群体公平愿望不能实现——除非这两个不同群体的基准率(base rate)相同,或者有一个完美的预测。因此,没有分类器(classfier)能保证在不同群体中的积极个体和消极个体比例真正相等。
个体公平要求给定方面相似的个体应当得到相似的待遇。衡量过程一般如下:
其中,x 和 z 是两个不同的个体,C 代表分类器,通过度量两个分布 C(x)和 C(z)的距离,由利普希茨条件可知,这个距离应当与 x 和 z 的度量(metric)相关。这个理论基础颇为强大,因而说明 “给定方面相似的个体应当得到相似的待遇”也拥有强大的理论基础。但是,如何得到这个相似性度量(similarity metric)呢?或者说,对于给定的两个个体x与z,如何衡量他们在任务中的相似度呢?这个问题的研究曾停滞了很久,但从2018年开始,许多实验结果显示,只利用不完整的信息也可以得到这个指标,这就意味着研究人员可以试着通过人类专家或者各种远程的技术学习来获得信息。所以 Cynthia 对这个领域总体持乐观态度。她称自己的推测为“度量推测”,她认为,如果有一个公认的公平的系统,那就可以通过互动从这个系统中提取出需要的度量。所以在任何看似公平的行为之中,总会有一个隐藏的度量。
2016年到 2017 年,两个独立的研究团队就弥补群体公平与个体公平之间的差距的任务进行了尝试,Cynthia 将他们的研究称为“多重X框架”(Multi-X)。与以往不同,在这个框架中,研究人员并非只研究两个群体之间的公平性保证,而是研究了大量的任意交叉群体。 这里的 “multi” 提醒我们,X应当适用于预先指定的集合 C 中的所有子集 ; “X” 代表着具体的群体公平性保证。需要强调的是,这里的集合必须提前命名。2017 年 Johnson 和 Hearns 等人的论文给出了如何找到预先指定的集合C的方法。同时他们也提出了一个全新的,更难以理解的定义:结果不可分性(outcome indistinguishability)。
风险预测会给个体实例分配 0 到 1 之间的数字,这些数字通常被称为“概率”。例如“今晚下雨的可能性为 80% ”或者“明天下雨的可能性是多少?”,这里的“明天”就是一个个体实例, 预测器(predictor)会为其赋予一个概率。这里衍生出一个难点:不可重复事件的“概率”定义是什么?也就是 AI 的定义问题。很显然这是一个经典问题,毕竟,定义是描述后续一切算法的基础。
上图是Cynthia 和她的团队做的一项关于肿瘤的研究:首先给定一个肿瘤样本,并观察它 DNA 中的某些位置,比如粉色的位置,然后观察其他实验样本,结果显示,与它粉色位置上信息相同的肿瘤样本中, 70% 是可转移性的;然而,若是再观察 DNA 中的其他位置,比如蓝色位置,却也很有可能发现,与给出样本蓝色位置信息相同的肿瘤样本中,有 40% 是不可转移的。那么,仅由这个实验可以得出给定样本的转移概率是多少吗?答案是不可以。因为在这个实验中缺少交集处的信息。
但这个例子说明,算法中肿瘤的表征(representation)在训练和测试的过程中,始终影响着结果。所以表征的选择本身就是在算法中引入偏差的一种途径。这些特征(features)可能意味着不同的东西,或者在不同的子群体(sub population)上有不同的表达水平。于是又回到了 Underwood 那篇文章的第三个问题,即,使用统计学方法时应如何选择特征。
简单来说,假设x代表世界上所有可能的人类的表征,他们的算法就会对“人”的表征进行操作。这个过程会产生一些关于表征的映射,把可能的人类表征的空间x 与真实人类表征空间 z 联系起来。由于算法只能识别不同的表征,表征空间越小,就越有可能将不同的人搭配到同一个表征,从而产生冲突。幸而这个例子中的表征十分丰富,而且世界人口总数也足够大,所以可以避免这样的冲突。
有些人认为真实的概率是存在的。他们有一个心理模型,假设每一个实例 i 都具有天然的属性,标记为pi*,然后,从新的分布中得到的抽象结果就会被确定,Cynthia 认为这个模型具有一定的研究价值。在不发生冲突的情况下,所有的自然个体都能映射到表征空间上。
以通过天气状况,预测明天的下雨概率为例,为了更好地预测概率,人们往往还需要对结果进行“校准(calibrate)”。粗略来讲,如果从长时间的记录中观察一些记录了特定降雨量的日期,比如,降雨可能性为30% 时,人们往往会发现有些日期实际上是下雨的,实际上,如果回顾所有被预测 有 30% 的可能性会雨的日子,就会发现其中 30% 的日子确实下了雨。
以上讨论的是实时设置(online setting),接下来要介绍的则是批量设置中的校准,这也是AI中的一种典型的校准,预测器总是如实地反映算法得到的结果。在上图中,预测器的输出概率为0 或1。而当把人口看作一个整体时,这个预测器会再次被校准。而预测结果中人口总数的v成应该是积极的。
在公平性中,校准可以作为公平性的一个保证。如上图,给定两个不相交的集合 A 和 B ,理论上,如果只看 A 集合,那么预测器只会在 A 集合中校准,只看 B 集合时同理。但是,如果预测器分别在每个集合上校准,那么A 和 B 的平均分数相同。也就是说,之后任何对 A 的均值的推理都没有意义。所以在这个例子中,预测器是被整体校准的。校准作为公平性保证的另一个问题是,它只给出能找到的真实情况,并没有任何纠正不公平的措施。
那么,回到前文提到的 Johnson 等人的工作,这里可以引入“多重校准(multi-calibration)”的概念。与多重X框架类似,多重校准也需要适用于预先指定的集合 C 中的子集,而这里的 “calibration” 将指出具体的公平性保证。结果无差别是多重校准的推广。这个工作的灵感来自于伪随机(pseudo-random)的概念。对于完全随机的比特串(bit string)而言,即使算力再大也不可能预测下一个bit;而我们可以创建一种伪随机序列,这种序列缺少“可识别”的模式,我们暂时缺少“有效”的预测序列的方法。为了创建伪随机发生器,我们要将真正的短随机种子扩展为看起来“随机”的长序列。如图中的例子,左边的实验输入长的随机字符串,而右边的实验中将短随机种子扩展为达到伪随机强度的长序列。在理论假设的支持下,大概率可以创建一个能欺骗所有多项式的伪随机发生器。有了这个定义,Cynthia 等人定义了“结果不可分辨性”的概念。他们通过区分两种分类器本来不能分辨的因素,来查看区分能力。
图中左边使用的是伪随机算法,将它的预测结果与实际生活中的结果配对。而右侧,也是使用伪随机算法做预测,但是将这个算法看作世界的模型,然后从概率为p的伯努利分布中求出一个结果,再将二者配对。Cynthia 团队的期望是左右两边得到的概率应当能被区分出来。然而他们的结果显示实验并不能对二者进行有效的区分,所以被称为“结果不可分辨性”。
一般来说,物理学家尝试发现新的规律时,也是先利用猜想的规律进行计算,然后实验验证。Richard Feynman说,如果计算结果与实验结果不同,那么无论这条新规律多么优美,发现它的过程多么艰辛,都要承认这条新规律是错的。Cynthia 他们的实验结果就是如此,尽管实验环境很好,但实验结果并不能支持他们的理论。
但Cynthia 认为他们的实验给这个研究方向提供了一点思路。定义一旦被确定,研究者就可以马上看到创建定义层次结构的方法,或者根据给出的信息,发现越来越强的验证需求。比如,在他们的实验中,不再要求区别不同个体的预测,而是区分不同的个体,然后根据模型给出一个预测。目前可以看到的版本,被 Cynthia 称为访问样本。与此同时,仍然有很多信息可以给出以帮助预测器进行区分,如区分一个人的能力。而当想要利用这个预测器预测是否行为合法时,很多人可能会因为合理的预测结果被送进监狱。所以他们给出了如图所示的四个区别能力分级:
从数学的角度来看,对于任意或简单或复杂的自然属性(nature)p*而言,是否有可能,构造出一个计算复杂度与这个属性无关的结果?对于前两层来说,答案是肯定的。也就是说,无论p*是什么,只要C中包含 size-s,就存在一个预测器,它除以alpha的平方上最大不超过alpha。alpha是一个误差参数,它显示了与多重校准的结果的差异。
综上所述,当想要知道一个系统是否公平时,相应的文章应当接受审查,而且审查者和律师要有足够的敏锐度。 下面是两篇非常杰出的相关论文:
关于如何选择预先指定的研究对象的集合,以及确定某个群体 G 是否应当包含在 C 中,Cynthia 认为,如果有精力和时间确定相关的显著水平,G 中的成员很可能是可以被支配的。但是没有被支配的部分又该如何理解呢?答案是要弱化对 C 是否可知的学习。换句话说,只要 C 是可行的即可。实际上,对于这个问题,我们可以找到一个中等大小的集合,在这个集合上,多重校准可以帮助我们很好地趋近于自然属性。
A:我曾经在一些私企工作了许多年,我希望能提出一个新的问题。所以我开始与特拉维夫大学的Fiat讨论这件事,我们讨论了许多话题,最后我意识到将来机器学习可能会在公平性上有所应用。
Q:计算机科学正蓬勃发展,对此,您能否给青年学者的一些建议?A:要关注新闻,关注实时动态,不要把自己关在「信息茧房」里。思考计算机科学到底能给你喜欢的事情作出什么贡献?每个人都在努力工作,但是每天花一点时间来了解你所生活的世界是绝对值得的。
Q:您认为公平性的衡量应该包括一个关键矩阵,用以评估机器学习模型?A:我认为这很重要,但问题是公平性意味着什么。我为保护公平性和隐私作出过许多努力,不得不承认,保护隐私比保护公平性更容易,其中一个原因是隐私的定义更容易给出。以及,如何衡量数据本身是否具有公平性。
Q:许多年轻人困惑与应该进入工业界还是留在学术界,对此您有什么建议吗?A:首先要考虑到个人性格。研究是做一切事情的基础。对我来说,当我进入工业界时,我会考虑这份工作是否支持我的研究。工作有时候会成为一条退路,留在学术界也不失为一种策略。
推荐阅读
独家采访 | 智能源于自发产生而非计划:进化论拥趸,前OpenAI研究经理、UBC大学副教授Jeff Clune
MetaAI科学家解读最新模型:200+语言互译,千倍翻译数据,全球元宇宙用户自由交流