查看原文
其他

AI加剧系统性剥削,这一类人时薪已低至2美元

REN、林檎 数据实战派 2022-01-14


在人工智能(AI)技术广泛应用的今天,科技巨头对数据的需求与日俱增。


这种需求不仅是数量上的,更是质量上的。训练数据收集方法是否得当、范围是否全面、标注是否准确,都会影响到 AI 和机器学习模型的表现。


由庞大需求催生出了各式各样的数据众包平台,美国有亚马逊 Mechanical Turk 和谷歌 Crowdsource,还有许多以提供高质量标注数据为核心业务的初创 AI 企业,中国的百度、阿里、腾讯、京东也都有各自的众包平台。


这些公司希望发动群众的力量,通过提供奖励的众包模式解决数据采集、标注、提取等重复性工作。此类工作往往并不困难,几乎没有技术门槛,但过程大多十分枯燥乏味。


不过,在众包平台上谋求零工的人大多抱着兼职的心态,希望打发时间的同时赚取一些外快,聊胜于无的态度使其对时间 VS 回报的比例并不敏感。


乍看之下,双方的需求和兴趣似乎完美吻合,是一件双赢的事情。然而在 AI 时代数据众包产业化的背后,一套冠以众包之名,却行剥削之事的局面正悄然形成 —— 众包平台上的零工工作者已然成为 AI 时代的 “打工人”。


对于对自动化取代人工的恐惧多见于报端,然而这在某种程度上掩盖了对自动化导致的其他社会危机的讨论。比如说,与自动化失业相生相伴的一种现象是低薪隐形劳动


在中国和印度,一些人力成本较低的地区或城市,甚至形成了 “数据标注村”,有机构专门对接欧美 AI 公司和当地数据标注公司。在非洲、东南亚和南美等经济不发达地区,数据标注的廉价外包也已形成规模。


最近,康奈尔大学、蒙特利尔大学、普林斯顿大学和美国国家统计科学研究院共同完成的研究 the limits of global inclusion in ai development 指出,许多科技公司为数据标注众包人员支付的薪酬低到可怜,与他们用这些数据赚取的巨额利润完全不成比例。


论文以计算机视觉领域最有名的数据集之一 ImageNet 为例,其诞生离不开众多默默无闻的数据标注者的努力,然而这些 “幽灵工人” 获得的时薪中位数只有 2 美元左右,只有不到 4% 的标注者拿到了超过 7.25 美元的时薪 —— 而就在 2021 新年伊始,美国 20 个州和 30 个市县都提高了最低薪水,绝大部分地方都将最低时薪提高到了 15 美元。但因为这些兼职者不算员工,因此不受最低时薪法律保护。


一个很反直觉的现实是,低廉的薪水和几乎为零的技术门槛,蒙蔽了很多零工工作者的双眼,他们意识不到,自己经手的数据其实是一些科技企业赖以生存的核心资产。


美国初创公司 Samasource 专门为 AI 项目提供训练数据,其众包平台面向全球开放,上面大多是非洲和东南亚零工工作者。数据显示,这些人平均每天只能赚到 8 美元,而依靠标注好的数据,Samasource 在 2019 年拿到的 A 轮融资就接近 1500 万美元,营收超过 1900 万美元,其客户包括谷歌,沃尔玛和福特。


尽管对于非洲和东南亚的工作者来说,8 美元的日薪可能足够维持其生活,但这并不能改变其创造的价值被大大压缩的现实。对于 Samasource 公司来说,他们用极低成本拿到的数据,创造了千万美元级别的收益,但这些收益与其背后(一部分)真正的劳动者几乎毫无关系。


事实上,如果算上零工工作者寻找合适工作或者工作成果被拒绝的时间,他们的时薪可能还会进一步降低,因为这些时间是不被平台承认的,一分钱都拿不到的。


这也反映出另一个问题:众包模式下的权力失衡。


亚马逊 MTurk 可能是这种幽灵工作最早的代言人,创办初衷就是为了识别海量人工智能无法归类的图片。


在这个平台上,任务发布者拥有至高无上的权力。他们不仅可以任意调整任务价格(最低至 1 美分),还能拒绝任何已经完成的任务成果,甚至是故意缩短任务建议完成时间,使其大幅低于实际完成时间,以吸引工作者并降低成本。


稳定时期,MTurk 平均能招募到 10 到 20 万活跃劳工,大约任何时间点都有二千到五千的工人同时在线工作。但 MTurk 只是隐形劳动力大军的冰山一角。


亚马逊 Mechanical Turk


AI 领域的不平等


在论文中,研究人员还深入挖掘了数据标注廉价外包背后的产业结构问题。他们认为,这种模式实际上是西方殖民历史的缩影和延伸。


如今,西方国家的大规模殖民行为已不复存在,但从殖民时代延续下来的全球产业格局和权力模式,依然深刻影响着许多国家和地区。他们大多科技水平落后,只能依靠资源出口和廉价劳动力勉强维持经济,而西方发达国家以低廉的成本进口资源或雇佣劳动力,最终赚走了巨额利润(推荐阅读:一家图灵奖得主背书创企的陨落,暴露了 AI 弱国 “恒弱” 的困境?)。


类比到当今 AI 领域的发展趋势,这种不公平的局面依然可见。


首当其冲的是数据收集和标注工作中的代表性不足问题。这是一个老生常谈的话题,指的是训练 AI 模型的数据主要来自于西方语境,并带有人类社会的刻板印象,由此得来的模型无法对不同于西方文化的人和物体做出准确判断,还会产生类似人类的性别或种族偏见(推荐阅读:女性和少数族裔,正成为无监督预训练模型偏见的 “受害者” )。


一些企业认为,只要在数据流水线中引入更多元的背景,就能解决代表性不足问题。但即便抛开棘手的数据隐私和使用权问题,这种想法依旧过于单纯。


研究人员指出,尽管数据标注工作者来自非洲、东南亚、南美洲,看似容纳了多元文化,但由于标注者缺乏对其工作背景的认识,因此难以真正理解工作的意义和全貌,甚至可能与所从事的工作产生利益冲突。


在这种情况下,数据标注的质量必然下降,还可能因为标注错误而导致模型的训练出现问题。


此外,数据的收集和标注几乎没有技术门槛,会用电脑、能上网的人就可以轻松完成,但这也意味着从事此类工作的人不会获得任何有价值的能力提升,很难将其与正式的工作相提并论,更没有任何所谓的 “职场上升空间”。


当然,从事此类工作的人或许并不以此为主要谋生手段,也不指望靠这个赚大钱。德克萨斯大学的一项研究显示,亚马逊 Mechanical Turk 上的零工工作者的动机大多是享受其中和自我满足,也有很多人表示是因为当地没有好的工作机会。


数据显示,Samasource、Scale AI 和 Mighty AI 三家美国公司大多依靠非洲和东南亚的工作者,而亚马逊 Mechanical Turk 上的工作者大多来自于美国(50%)和印度(30%)。



而在营销话术的糖衣包装下,他们觉得自己参与到了人工智能进步的伟大事业之中,却忽略了在微薄收入和零能力提升的前提下,此类零工的机会成本十分高昂,为此错失了本可以提升自己的时机。


可对于企业而言,这样的廉价劳动力简直不能再香了。

谷歌众包平台 Crowdsource:你能帮助 AI 更加多元化



在《幽灵工作》( Ghost Work: How to Stop Silicon Valley from Building a New Global Underclass)一书中,人类学家 Mary Gray 和计算社会科学家 Siddharth Suri 提出了与自动化失业相伴的另一种孪生现象:由技术瓶颈、程序漏洞和算法缺陷等所带来的低薪隐形劳动。他们称之为“自动化最后一英里悖论”,即全自动化看似近在眼前,实则遥不可及,每个新算法都会带来新的对人工的需求,使得全自动化的终点线不断往后推延。也正因如此,这种不公现象并不会是仅仅发生在技术发展初期。


本质上,这种出现在 AI 领域的现象也是社会不公平问题的缩影。


一些科技公司也意识到了这一问题,纷纷在欠发达国家和地区设立 AI 研究中心,包括印度,巴西,非洲的加纳、肯尼亚和南非。


研究人员指出,这种趋势总体上是好的,但存在两点短期内难以克服的客观条件,分别是政治与经济的不稳定性,以及当地人的受高等教育比例偏低。


与此同时,这些研究中心的管理层通常是科技巨头从其他国家或地区调去的,甚至是远程工作的,当地人在核心战略和技术方向等课题的参与度和话语权可能并没有想象中的高。


这些问题制约了研究中心产出成果的上限,而且这些研究中心大多成立不足五年,目前还很难评估它们对培养当地 AI 研究者、塑造当地 AI 研究环境究竟带来了多大的益处。


改变的机会所在


综合考虑 AI 领域的发展不公平问题后,研究人员给出三条指导性建议,也是看起来可行的改变现状的机会。


第一个是培养和发展代表少数群体的 “草根 AI 组织”,比如专注非裔人群发展的非营利组织 Black in AI。该组织旨在提升全球 AI 领域的非裔学生、研究者和实践者的代表性,尤其是正在或已经接受过高等教育的人群,提升他们在 NeurIPS 等顶级 AI 会议上的参与度。


第二个是让更多人参与到 AI 研究的核心环节,尤其是 AI 模型和项目的研发、实现和部署,从而在欠发达国家培养和锻炼更多本土 AI 人才,之后再鼓励他们谋求管理岗位,或者支持其创业。相比之下,做再多数据收集和标注这样的工作,也无法提升他们的能力。


最后一个是将 AI 视为经济发展产业,尽量摆脱对外国 AI 系统的依赖。研究人员认为这种策略类似于经济领域的进口替代工业化战略(import substitution industrialization),政府需要出台一系列政策大力扶持本土 AI 产业,包括投入资金支持 AI 核心技术研发、基础设施建设以及项目落地等等。


“虽然国际合作是必需的,但必要时,政府甚至可以限制外国公司在 AI 领域的参与和获利…… 以保障本土 AI 企业的利益不被夺取,” 研究人员写道。


这三条路并不好走,尤其是最后一条,理想色彩浓厚。论文在最后也承认,进口替代工业化战略在经济领域的实施就很困难,放到 AI 领域亦是如此。以非洲为例,不必说高等教育人才的缺乏,当地人的温饱都成问题,很多城市连最基本的互联网服务都没有,更别提开发 AI 模型了。


改变 AI 领域的不公平问题,跟改变人类社会的不公平问题十分相似,绝非一朝一夕之事。


研究人员坦言,他们希望尽到自己的力量,让更多人看到被 AI 领域忽视或处于 AI 发展边缘的群体,让他们不只局限于数据标注这样的简单工作中,而是获得更大的影响力,最终也成为 AI 技术的受益者,受到应有的公平对待。


 往期推荐 

量子 NLP 已来?一英国创企:实现迄今最大规模量子自然语言处理
 MIT 机器人教父 Rodney Brooks:机械臂编程语言的起源
 ICLR 2021 丨当梯度提升遇到图神经网络,“鱼和熊掌” 皆可兼得
计算机界论资排位的老字号 CSRankings,为何被密歇根大学教授 “嫌弃”?
巧借 “他山之石”,生成信息量大、可读性强且稳定的摘要
一家图灵奖得主背书创企的陨落,暴露了 AI 弱国 “恒弱” 的困境?
女性和少数族裔,正成为无监督预训练模型偏见的 “受害者”
巧借 “他山之石”,生成信息量大、可读性强且稳定的摘要
从本体论到知识图谱, 著名学者 Pascal Hitzler 长文回顾语义网 20 年发展
丨吴恩达团队新研究:在 ImageNet 上优化的模型,真的能更好胜任医学影像任务吗?
华为 AI 水军被推特封禁的背后,谁应为 AI 应用的边界负责?
果蝇能学会 Word Embedding 吗?丨麻省理工联合团队 ICLR 2021 论文
发明现代概率的男人:他如何发现 “不可能” 对人类事务的影响?

关于数据实战派
数据实战派希望用真实数据和行业实战案例,帮助读者提升业务能力,共建有趣的大数据社区。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存