女性和少数族裔,正成为无监督预训练模型偏见的“受害者”
图片出处:unsplash
随着机器学习技术的发展和普及,越来越多的科学家注意到这项技术背后隐藏着 “偏见” 和 “歧视”。
它们与人类社会的偏见相似,并且广泛存在于人脸识别算法、图像数据集构建、图像识别和分类、自然语言处理等常见的机器学习实践中。
用于训练图像分类 AI 模型的知名数据集 ImageNet,就被许多研究人员指出了问题,比如在它从互联网上无差别收集的大量图像中,存在一定程度上的少数群体代表性不足,以及关于性别、种族、肤色的偏见。用它训练出来的模型,很可能继承了这些偏见。
这些偏见到底有多严重?偏见程度是否可以量化?
最近,为了解决上述问题,卡耐基梅隆大学的 Ryan Steed 和乔治华盛顿大学的 Aylin Caliskan 发表了一篇名为《无监督预训练的图像表示方法包含类似人类的偏见》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases )的论文。
两名研究者基于 ImageNet 2012 数据库,对 iGPT 和 SimCLRv2 两个知名的无监督计算机视觉模型进行了分析和测试,寻找它们是否存在内在偏见并对其进行量化。
最终得出的答案是肯定的,而且这些偏见与人类社会广泛存在的偏见十分相似,比如男性与事业相关,女性与家庭挂钩。甚至在一项测试中,对女性图片有 52.5% 的补全图片由比基尼或低胸上衣构成。
要知道,iGPT 的底层架构来自 OpenAI 的 GPT-2,SimCLRv2 则出自谷歌研究院,均是两家业内顶尖机构在 2020 年发布最新模型,且均采用无监督学习方法预训练,在性能测试中表现优异。
即便如此,它们也难以避免偏见和歧视问题,尤其是与种族、性别相关的刻板印象。这说明,即使是无监督学习,数据集中固有的人类社会偏见也会传递给模型。
一般来说,偏见测试主要针对 NLP 或其他与文字有关的模型,比较常用的是单词嵌入关联测试(Word Embedding Association Test,WEAT)。
但对于 iGPT 等图像分类模型来说,它们生成的像素难以直接与语义对应 —— 一块黑色像素并不能代表任何有价值的语义。
因此,为了对图像进行偏见测试,研究人员在 WEAT 基础上开发了图像嵌入关联测试(iEAT),可以对模型生成的文本标签进行词嵌入处理,将词转化为向量,最后通过比较不同模型生成的向量数值来评估结果。
图 | iEAT 判断花朵和昆虫与亲和度之间的关系
常见测试评估的偏见可以分为两大类,分别是 “亲和度(pleasantness)” 和 “刻板印象(stereotype)”。而在这项研究中,研究人员还介绍了几种新的测试方法,用于交叉检验亲和度、性别刻板印象、种族之间的关系。数据代表程度最高的 “白人男性” 被选为参照群体。
偏见测试构建完成后,研究人员选择了 iGPT 和 SimCLRv2 作为测试模型。主要原因是它们都采用了无监督学习进行预训练,通过捕捉训练集中的隐形特征生成标签。
此外,这两个模型都使用了 ImageNet 2012 数据集进行与训练,其中包含来自 Flickr 等图片分享网站的 120 万张已标记图像,共分为 200 个物体类型。
研究者认为,虽然 ImageNet 的 “人物” 类型图片已被移除(许多研究已指出其中的偏见),但它仍是广泛使用的基准测试之一,包含了相当多的图片数据,足以在很大程度上反映出网络上的人物肖像风格。
在关于 “广泛接受的偏见(Widely Accepted Biases)” 测试中,考察两套模型的是昆虫和花朵与亲和度之间的关系。不出研究者所料,它们表现出了与人类参与者类似的喜好:花朵亲和度更高(令人愉悦),昆虫亲和度更低(令人不适)。
在种族测试中,两套模型对阿拉伯穆斯林人群的图像展示出的亲和度更低。与此同时,它们更容易将黑人和武器联系起来,而作为对比,白人则更容易与工具相关联。
另一项有关性别的测试也显示出模型的偏见,比如男性与事业、办公室等职场属性关联度更高,女性则更加与儿童、家等家庭属性相关。类似的,男性还与数学、工程等科学属性关联度更高,女性则与艺术、写作的关联度更高 —— 不过这一点仅出现在 iGPT 模型上。
研究者还进行了针对老人、肥胖、残疾人等特定人群的刻板印象测试,其中 iGPT 展示了针对肥胖人群的负面偏见。这意味着它更容易认为瘦弱的人是 “令人愉悦的”,却 “不待见” 超重的人。
在性别和种族的综合测试中,女性整体上比男性要更正面,无论是什么种族或肤色。其中白人女性是最正面的群体(亲和度较高),黑人男性的亲和度最低,但白人女性和黑人女性之间的偏见程度并不明显。
有意思的是,仅考虑 “种族” 偏见呈现出的统计学结果,与 “男性 + 种族” 偏见的结果很相似。
然而,当考虑性别和职业的综合偏见时,结果却呈现出许多自相矛盾的地方。比如如果将白人男性和白人女性放在一起对比,前者更偏向事业,后者更偏向家庭。但如果对比白人男性和黑人男性,结果却是白人男性更偏向家庭,黑人男性更偏向事业。
研究人员认为,这可能是黑人图片代表性不足所致,尤其是那些与黑人刻板印象相左的图片数量不足。
还有一些群体从统计学上看不出偏见的迹象,比如白人女性和黑人女性的种族偏见不明显。此外,美国原住民和亚裔美国人在刻板印象、残疾偏向性、年龄偏向性三个测试中均未表现出明显的偏见。
不过整体上看,研究人员在测试之初提出的偏见假设大多得到了验证,足以说明模型继承了来自人类社会的偏见。
偏见来源
接下来,研究人员进一步分析了可能的偏见来源。
由于 ImageNet 数据集中的图片都来自于互联网上,在收集过程中,少数群体天然存在代表性不足的问题。
比如 “婚礼” 是一个令人愉悦的场景,但相较于黑人,白人在婚礼图片中出现的频率更高,模型就会自动倾向于将其视为高亲和度,尽管无监督学习的预训练过程没有给婚礼打上任何与白人相关的标签。
类似的情况也出现在性别与职业中。女性所在场景更多的是 “家或宾馆”,而男性则更多出现在 “工业和建筑” 场景。这无形中给模型灌输了和人类相似的职业和社会偏见。
另外一个偏见来源是模型所采用的自回归算法(Autoregression)本身,尽管利用下一个像素预测特征的方式可能不会带有太多偏见,但在实践中,还是会难以避免地引入刻板印象。这个问题也受到了许多机器学习研究者的关注。
像是 iGPT 这样的生成式模型,可能会采用带有偏见的描述方式来进行预测。
为了证明这一点,研究人员先用 StyleGAN 生成了 10 张虚假人像,然后只保留人物头像作为 iGPT 的输入值,让它补全剩下的图像。每张人像补全 8 次,总共生成 80 张图片,男女各占一半。
图 | iGPT 补全的男性图片
结果显示,iGPT 的表现带有显著的性别色彩。对于女性头像来说,有 52.5% 的补全图片由比基尼或低胸上衣构成,而对于男性而言,有 42.5% 的图片是身着西装或其他职业相关服饰的,赤裸上身或低胸上衣的图片只有 7.5%,其中还有一张是持枪的。
综合分析结果之后,研究人员指出,尽管无监督学习可以从数据中捕捉许多有价值的规律,但它似乎对人类社会中常见的偏见和歧视照单全收,许多文字或 NLP 领域的偏见和歧视问题也体现在计算机视觉任务中。
造成这种现象的原因之一是现阶段人类社会固有的偏见。它们广泛存在于人们上传到网络上的图片中,基于这些数据(集)的预训练模型继承了这些问题。
尽管此类模型可能对量化社会偏见很有用,但研究人员强调,目前在图像上大规模使用无监督预训练反而有可能传播和扩散有害的偏见,因此他们建议计算机视觉研究人员谨慎使用迁移学习技术,尽可能地减少预训练模型中已经存在的偏见的传播,降低其可能造成的不良影响。
Reference:
https://arxiv.org/pdf/2010.15052.pdf