查看原文
其他

林 曦 郭苏建|算法不正义与大数据伦理

林 曦 郭苏建 社会科学杂志 2021-09-20

摘要

大数据正在对中国社会科学研究范式、路径、方法和未来发展产生极其重大而深远的影响和挑战。然而,对于以各种算法为基础的大数据而言,在其数据收集、处理和应用中,也出现了相应的不正义伦理议题,亟需社会科学研究者进行深入思考。所谓的算法不正义,指的是在大数据的知识建构过程中,社会不同个体或团体,在大数据资源的占有、使用和分配上出现不平等,从而导致在数据资源的“代表性”、“用户画像”、决策支持、行动干预等不同维度上出现不正义的情形。在大数据收集、处理、应用的过程中,算法忽视或者无法甄别数据来源,传输和使用过程中对某个区域范围内总人口中特定人群的优待或者排斥,从而导致数据本身所蕴含的不平等被原封不动地转移到大数据的计算结果之中,这种计算结果有可能反过来进一步加剧原本不同人群在数据资源分配和再分配上的不平等,进而导致基于算法的大数据不平等和不正义。为了解决这些算法不正义的问题,学者们也提出了诸如“促进平等的数据倡议”的行动方案,有些国家和地区还出现了公民自发的“量化自我”运动,以有意识地应对因大数据及其算法而导致的不平等和不正义。



作者

林  曦,复旦大学社会科学高等研究院教授、院长助理;郭苏建,教育部“长江学者”特聘教授,复旦大学社会科学高等研究院院长


原文

刊载于《社会科学》2020年第8期


在过去的十年间,大数据对我们身处的社会进程和发展产生了很大的影响,在世界范围内,我们都可以观察到一个“数据化”(Datafication)的现象。它包含了数字技术的蓬勃发展,而且,数据在各个国家的发展过程中发挥越来越重要的作用。数据的体量、应用规模、速度、范围等都出现了大规模的增长,数据也逐步成为政策决策的重要参考对象。联合国把这个过程称之为“一场数据革命”,并预言这样的一场革命,将带领人类社会进入可持续发展的轨道。新形式的数据,尤其是大数据和人工智能,能够帮助发展中国家更好地实现可持续发展的目标,比如,通过无人机、数据监控,更好地服务农业的发展、提高第一产业的效率,在工业上运用大数据实现智能制造,在公共卫生方面运用大数据预测流行病、提前部署疾控措施,通过大数据提高政府公开透明和行政效率,等等。

从定义上看,大数据所包含的数据种类繁多、体量巨大,运算速度也比传统数据高很多,美国公共舆论研究学会曾给大数据下了一个定义,其认为大数据作为一个词汇,只是笼统地描述了一堆内涵丰富、复杂无比的数据集合,里面包含了各种与数据相关的特性、实践、技术、伦理议题以及结果。正因为大数据体量巨大、种类庞杂、来源广泛,对于大数据而言,其数据采集、分析和应用都是借由各种算法来进行。一般而言,算法的定义即旨在解决某个问题的方式或进程。如果问题可以被看成是一个需要求解的数学题,那么,算法就是解决该问题的方程式,将输入的选项通过一系列的解决方法,得出输出结果。对于大数据而言,算法在其中起到了不可替代的作用。搜索引擎运用特定的算法,对海量的数据进行采集、过滤、分类和索引;数据分析技术则依赖算法,对采集到的数据进行清洗、结构化处理和运算;最终,当数据分析结果需要呈现的时候,算法又对这些结果进行可视化的处理或者显示优先顺序的排列。大数据虽然是关乎数据的整个价值链,但是,算法是贯穿始终的。离开了算法,大数据就无法以一种被人类思维“可理解”的方式呈现出来。对于大数据与社会科学研究之间的关系,乐观派的人士认为,数据收集和大数据挖掘能够让我们获得全样本数据,避免数据采集过程中因为无法获得足够样本量而导致数据偏差,正是因为大数据本身在数据采集过程中的大样本优势,所以,它可以帮助我们避免因为人为偏好而导致误差。但是,大数据中的算法,只有在数据来源本身优良、高质量的情况下,才能真正发挥出上述的优势,如果数据本身是有缺陷的,或者不够完美,那么,技术乐观派的那种理想主义假设就无法落到实处。现实的情况是我们所收集到的数据很多时候都是不完美的,这些数据有可能是之前决策者基于人为偏好而得到的,因此,此类数据本身就包含了偏见、不平等、排斥。而且,因为设备和资源使用的分布不均衡,这也会导致我们在采集数据的过程中,那些占有更多数据资源的使用者的偏好更有可能进入数据,如此一来,我们所得到的数据就会与社会上广泛存在的偏好、偏见重叠在一起。在数据挖掘的过程中,有可能会出现的情况是它与此前业已存在的排斥、不平等现象呈现出惊人的相似性或者一致性,都以同样的规律来呈现。因此,如果我们对数据进行分析,本身不加反思、不加批判地接受,那么,这就让我们无视那些在过去的历史发展中被边缘化、处于弱势地位或者岌岌可危的群体所遭受的不公,这就相当于拒斥了这些群体完全融入到我们的公共生活之中。程序员或者编程人员在开发软件、设计算法的时候,可能并没有想到这些问题,而这些偏见都是人们在使用算法的过程中才出现的,因此,它是一个非意图的后果,如此一来,要想真切地发现并纠正此类算法所带来的偏见和不正义,就显得尤其困难。

对于大数据而言,经常会出现的一个迷思就是公众认为大数据是以“客观、公正、去意识形态化”的面貌出现,大数据否认自身存在意识形态或者偏见,这本身就是大数据的一个“意识形态”。这其实是无视了大数据在数据收集的过程中,常常由商业公司来操作、带有商业目的或者追逐商业利益,由此而得来的数据难免会产生偏见或者偏好。不同类型的大数据,其内在的偏好有可能是不一样的,比如,在社交应用软件或者社交媒体网站上,一般在加入之前,都会在条款里面要求用户同意对方使用该用户录入的数据,如果有人对自己的隐私比较看重,不愿意接受这些条款,那么,这样的用户就无法在这些网站上注册成为用户。通过这些社交媒体网站或者应用软件而得到的大数据,很难宣称自己的数据结果是无偏见的,因此,这些数据在收集伊始,就已经排除了那些对自己隐私更加看重的用户。

因此,对大数据在形成公众认知和社会科学研究当中所起到的作用进行一个正义伦理维度的检视就显得重要。大数据不仅仅关乎技术,更重要的是它已经变成一整套的知识生产和建构体系,改变了我们对理论和实践的认知。因此,本文就从这一知识体系入手,希望能够从大数据知识如何得以建构的运行体系中,发现大数据及其算法、运算、数据流通背后可能被人忽略的不正义层面。为此,我们有必要从整个大数据知识建构体系来进行逐一分析。这个体系大致包含三个方面,涵盖数据收集、数据分析和数据应用。在数据收集中,在确定了相应的“数据源头”(Source)之后,会运用相应的技术对其中的数据进行捕获或者抓取,这些数据汇总起来就形成了对“数据源头”或者数据用户的一个“代表”(Representation)。在收集数据的基础上,还需要对这些数据进行清洗、分门别类、结构化处理,由此完成一个“用户画像”(Profile),形成对数据的初步分析,并在此基础上进行相应的算法分析。数据分析所得出的结果以一定的形式呈现出来,并可以被运用到各个层面,用以支持公共决策或对行动进行干预。这些数据的收集、分析和应用,又会反过来为整个大数据知识体系添砖加瓦,推动整个体系在增量和存量层面的积累。下文对大数据正义伦理所进行的探讨,也将以这个结构来展开,笔者将逐一讨论这一大数据知识建构体系中所可能出现的不正义场景。


数据收集


对于大数据而言,收集或采集数据是数据挖掘至关重要的一环,后续的数据分析和应用都取决于所收集或采集到的数据质量。数据收集主要涉及两个方面的问题:“采集”和“捕获”。首先,大数据集合需要确认被收集或采集的对象,即所谓的“数据源头”。不同类型的数据源头决定了数据收集或者采集方式的差异,比如,数据源头是温度、气压、空气质量等,则较有可能通过物联网传感器进行收集;相比之下,如果数据源头与人类行为有关,则很可能通过各种社交网络、互联网站或便携移动设备来进行收集。以智能交通为例,如果数据源头是实时的路况信息,则数据采集会通过GPS定位信息、分布在交通网络上的摄像头以及交通关卡的车辆统计等方式来进行。本文主要讨论社会科学视域下的大数据,因此,笔者将主要讨论以人类行为为源头的大数据收集。

(一)源头:从“数字鸿沟”到“大数据鸿沟”

针对以人类行为为源头的数据采集,有一点是毫无疑问的,即不同人群在使用数字设备和技术上存在千差万别,其中,有些差异是结构性的。正如有些学者担心的那样,在数据集中,有不少与发展相关的问题或者社会群体,其代表程度是偏低的、不够的。如果以这种数据作为决策的依据,那么,就有可能对那些代表程度偏低的问题或人群造成不公。造成这种不公的原因可能包括“数字鸿沟”、“大数据鸿沟”、数据质量问题、数据收集的程序、在发展中国家和地区与数据相关的能力建设不足等。所谓的“大数据鸿沟”(Big Data Divide),即不同群体或实体(比如公司、企业、高校)在创建、购买、存储、使用大型数据集层面存在的能力和知识等方面的差距。这一“大数据鸿沟”与之前的“数字鸿沟” (Digital Divide)存在着千丝万缕的联系。

最开始研究“数字鸿沟”的学者主要聚焦于数字有产与数字无产之间的区别,这些研究认为,在拥有数字基础设施(比如计算机、互联网接入)层面,会存在相应的社会经济不平等。后来,随着互联网的普及,因为基础设施占有而引起的数字不平等在逐步缩小,研究人员转而更加关注其他层次的不平等。研究者发现,“数字鸿沟”会沿着传统的不平等而展开,比如收入、教育、种族、性别、居住区域等。这些“信息层面上的被剥夺者”,他们处在一个更加劣势的发展和经济位置上。后来,“数字鸿沟”学者的注意力主要转向了“数字技能”和“数字素养”上的差距,不同用户在内容生产能力上具有显著的差异,并且,这种差异是与一些地理上的区隔、差异重叠在一起,以及这些差距与用户在健康状况、健康效应上的差别。因此,数字不平等本身是关乎人们接受、获取、使用某种新技术的倾向和能力,这样的倾向和能力又与用户在社会网络中的位置及其在该位置上所积累的各种资本相关。所以,数字不平等不仅仅是一个简单的、个体差异意义上的不平等,同时,它也彰显着个体背后的社会结构中的不平等,比如资源的分配、获取和使用技术的机会、训练数字技能的成本等。即便给不同群体赋予同等的获取技术的机会,仍然会存在其他的限制性条件,继而影响到个体对这些技术的实际使用,这些限制性条件包括语言、“媒体素养”(Media Literacy)以及其他结构性的影响因素。

从“数字鸿沟”的文献中汲取了相当养分的“大数据鸿沟”研究学者,则关注那些大规模、分布式数据集中的数据有产和数据无产之间的差异。“大数据鸿沟”体现在以下两个群体不对称的关系上:一方是那些有能力收集、储存、挖掘海量数据的主体;另一方是那些被收集数据的对象。对数据的获取,有些是依赖技术手段,有些则与经济资源有关,看谁有支付的能力。比如,推特只给一部分公司开放了完全访问其数据的权限,对于公众而言,只具备相当有限的访问权限。同时,大数据也是一柄双刃剑,本身也会带来一些和数据相关的问题,比如无处不在的监控、丧失隐私、发展收益被私人企业占了大头、日益增长的不平等。

以城市规划为例,放眼全球,各个国家在城市规划和管理的过程中,会越来越多地用到各种各样的数据,这形成了一种“新型的城市日程”,旨在指引未来的城市规划和发展。对于许多发展中国家而言,包括中国在内,政府都会有意识地力推“智慧城市”项目。在这些政府看来,“智慧城市”和可持续发展、绿色发展等诸理念存在紧密的联系,数字技术也让城市规划部门能够运用更多的技术、智能和数据来协助其进行规划。比如,现在在各地应用非常广泛的远程感应就是通过在地面上布置的感应器来搜集环境数据。在这个过程中,还涌现了“数字孪生”(Digital Twin)技术,即通过物联网、数据平台、信息模型平台等技术手段,把现实世界中的客体映射到虚拟空间,在虚拟世界中创造出一个与现实世界相对应的“孪生”客体。因此,顾名思义,“数字孪生”技术就是在虚拟世界中复刻和模拟现实世界中的具体对象,比如,现实中的地理空间、人口等信息,可以通过大数据在虚拟世界中进行相应呈现。这一技术现在也被广泛地应用到城市规划中。但是,有学者发现,在城市规划过程中,大数据所产生的影响,对那些已经在现实生活中被边缘化的群体而言,可能并不见得都是积极的。对于那些低收入、无固定住所人群而言,他们获取数据的途径缺乏,并且,他们的存在状态在各种大数据或由此产生的“数字孪生”模型中也很难呈现出来。从程序上讲,如果大数据的采集或者“数字孪生”的创建过程不能很好地考虑到那些被遮蔽的群体,无法实现既定目标,不尊重居民的数据权利,或者在发展中国家和地区对那些已经被边缘化的群体造成“二度伤害”、排斥,那么,其最终的成果也无法满足分配正义的要求。

我们之所以在这里提到“大数据鸿沟”及“数字素养”问题,乃是因为这涉及到一个数据源头的用户代表性问题,即所收集到的数据在多大程度上能够代表现实人口中的多样性和族群比例。不同的社会群体在数据中所获得的能见度和曝光度,是不是能够与现实中的实际情况相匹配。有研究表明,城市中那些被边缘化的群体,他们在数据权利上长期以来遭受一些不公正的待遇,一个最突出的问题就是在现实中他们被边缘化,然后到了虚拟世界,在数字呈现中,他们同样是被边缘化的,这两个边缘化之间是相互映射的关系。因此,尽管基于大数据的“数字孪生”技术被寄予了打造智慧城市的厚望,但是,虚拟世界中的技术或数据亦可能复制、模拟、映射现实世界中的各种不平等和不公平。从数据来讲,这些群体不可见或者能见度很低,不仅仅是因为这些群体所处的区域并未在数字地图上标注出来,同时,在以数据为基础的资产和服务之中,这些群体是集体失声的。比如,在印度的金奈市和浦那市,虽然有关被边缘化群体的数据会有各方利益相关者在收集(比如民间组织、学者、地方政府等),但是,这些数据并不能符合相应的数据标准,包括开放、完整、准确、相关、正确的呈现方式。而且,这些数据即便被收集起来,收集者也会认为这些数据是自己的私有财产。因此,对于这些被收集的对象以及其他利益相关方,反而是看不到、无法获取这些数据。即便这些数据被开放出来供公众获取使用,很多时候,数据仅仅覆盖被边缘化人群所处区域的一部分,或者数据老化、未得到及时更新,还有一种情况就是数据并未电子化,而是以纸质记录的方式,分散在各个政府部门。这样一种状况直接导致政府部门在公共设施规划和维护上表现不佳,也无法提供有效的公共产品。

当然,这里的能见度和曝光度,除了被呈现的权利之外,其硬币的另一面也是与个体的隐私紧密勾连在一起。虽然个体获得了能见度和曝光度,但是,这样的能见度和曝光度是不是以个体喜闻乐见的方式来呈现?并且,这种能见度和曝光度要持续多长时间,以何种形式储存、访问和索引,所有这些问题都是与能见度、曝光度纠缠在一起的,它并非一个简单的赋权或者失去权利的问题。这就涉及到用户在数据集合中的呈现方式,也与数据在捕获过程中所经历的数据化过程勾连在一起。为此,我们将在下一节考察数据捕获过程中的相关议题。

(二)捕获:“平台单一性”

在确定了源头或者采集对象之后,大数据的采集就进入“数据捕获”(Data Capture)的环节。从定义上看,“数据捕获”主要是与“数据输入”(Data Entry)相区别,采用自动化的方式收集、抓取和获取信息,而不依赖人工的方式进行信息输入。在大数据时代,依靠人工的方式手动输入数据到某个信息处理系统之中,这样的方式既耗时又低效。因此,大数据时代的数据产生,基本上依赖于自动化的方式进行“数据捕获”,比如,通过智能或者便携设备收集用户在使用过程中所产生的信息,或者使用编程软件在互联网上依靠某种算法自动抓取、汇编信息,这些都是“数据捕获”的手段和方式。

在“数据捕获”的过程中,前文所讨论的“大数据鸿沟”会在用户的“数字素养”(Digital Literacy)上体现出来,即受访者所掌握的数字技能熟练程度,这种素养对于受访者使用智能设备或者某种应用软件的方式有显著影响。数字技能更加熟练的群体,比起那些数字技能弱或者差的群体,就拥有了在数据呈现和代表这个维度更多的话语权。并且,除了这一由“大数据鸿沟”所带来的“素养差距”(Literacy Gap)之外,还存在一个“平台单一性”的问题,即如果大数据研究针对的只是某个软件应用、网站或者服务,那么,在这个研究里面所呈现出来的人员数据(行为、看法)就是某个时刻正在使用该应用、网站或者服务的那些人。取样的样本对象就是该应用、网站或者服务的使用者。如果某个用户并没有使用该应用、网站或者服务,那么,该用户就被排除在取样的样本对象范围之外,该用户的特征、行为、看法也就无法进入研究者的视野。如果我们取样的样本量很大,成千上万乃至上百万,因为体量巨大,我们会倾向于认为,对这些样本进行考察的研究发现就具备了一定的普遍化特性,在这些人身上所得出的研究发现,可以推广到社会上更加广泛的人群。但是,现实中的情况并非如此。光是数字并不代表着可推广性。比如,年轻人更容易使用脸书,而且年轻人的政治倾向、行为、看法都会与年长的人有所差别。因此,我们假设有一项研究是针对脸书上群体的特定政治看法,那么,这种政治看法其实就很难推广到社会上更加广泛的人群,尤其是年龄偏大的人群,他们不但可能较少使用脸书,而且他们的政治倾向、行为、看法都可能与使用脸书的年轻人相差很大。曾经有学者做了一项研究,在脸书上考察超过1500万个状态更新,探讨性格和词汇使用之间的关系。这个研究其实都是从那些使用了该应用——“My Personality”的人那里得出,而并不是从脸书里面随机抽样。这个研究会产生偏差的地方在于,研究者所选取的对象本身就已经对“性格”这一选项表现出浓厚的兴趣,使用了和性格相关的应用软件,这其实大大限制了这个研究推广到其他人群的有效性。

在“数据捕获”的过程中,也有可能出现的情况是我们过于关注某个应用软件或者平台,从而让我们忽略了人们通过其他渠道进行人际交往的可能性,比如其他的线上服务平台或者打电话。而且,单纯依靠单一平台,其实是假设人们在日常生活中基本上都是在使用这个平台,很少或者没有通过其他渠道进行人际交往,这个假设与实际情况可能存在较大差异。使用某个应用软件,其实是具有很强烈的行为型塑功能,会带来不一样的结果和行为模式。某个特定的社交软件或者网站,人们对其进行使用并不是随机的,而是与人口学、社会经济背景有关联,而且,“数字素养”、“数字技能”同样也是与人口学、社会经济背景相关。因此,不同的社交软件、服务或者网站吸引了不同的用户人群,针对某一特定社交软件、服务或者网站用户而进行的研究发现,就很难被推广到其他社交软件、服务或者网站用户身上。

“数据捕获”其实还涉及到国家运用公权力进行社会控制这一层面,这就涉及到一个问题,即不同的人群是以何种形式被变成“数据”。这个将不同用户群体进行“数据化”的过程涉及到“可读性”(Legibility)概念。在斯科特看来,国家会通过一系列的技术、测量、绘图等手段,让公民和社会变得“可读”,运用标准化的方法,对公民进行征税、征兵、防止动乱,就好比一个养蜂人,通过特定的布局和技术安排,让蜂巢变得井井有条、便于管理,从这个意义上讲,蜂巢之于养蜂人,正如社会之于国家,其都是通过一系列的手段,让前者能够被后者“读取”和“理解”,以便实施管理和控制。多诺万将这一概念应用于大数据的研究,他指出,“可读性”打破了公民自身对数据和知识的控制,国家对公民和社会搜集大数据,有可能会用于强化自己的行政控制。这一点对于社会中被边缘化的群体而言,尤其如此。本来,被边缘化群体自身会发展出一套自洽的理解、知识体系,这样的体系对这些群体而言是赋权、有价值的,但是,国家权力干预进来,这可能对地方社群所具备的地方性知识和力量构成挑战和破坏。因此,“可读性”所可能带来的一个隐患就是控制权的丧失。多诺万以肯尼亚内罗毕市区的基贝拉贫民窟为例,讨论当地被边缘化群体是如何抗拒国家对他们进行“可读化”的“数据捕获”。在基贝拉,有些机构(学校或者药店)不愿意在地图上被呈现出来,他们担心自己会遭遇“见光死”,即数据上的能见度带来国家的强势干预,而干预的结果就是他们被关闭,因为这些机构本身就是非正式的存在,并未履行相关的手续、登记程序,但是却实实在在地为地方社群提供不可或缺的公共产品。无独有偶,同样的场景也发生在印度的金奈市,一些地方社群拒绝参与数据收集过程,他们觉得通过数据收集让大家都关注到自己的存在,反而弊大于利,因为别人一下子就会看到他们是“非正规”的存在,如果因为数据收集而“暴露在国家的视野中”,那就得不偿失了,很有可能会带来被驱逐、关停的风险。为了解决这个问题,一些非政府组织在印度金奈市收集那些编外、没有登记在案的捡垃圾者的时候,就会在数据上稍作处理,不提供这些人的地点或者法律身份,以便保护这些人免受国家行为的强势干预。

通过对“数据源头”和“数据捕获”这两方面的考察,我们可以看到,上述的研究指向了数据收集过程中的一个重要伦理维度,即数据收集可能会忽视、甚至强化已有的不平等和不正义。在城市规划的过程中,如果运用大数据来建造空间和建筑物,有可能会复制城市空间中已有的不平等。数据的采集和整理都有可能复制甚至增加现有的社会鸿沟,而不是弱化或者降低。而且,现在的城市规划用到了很多自动化的设备和联网的计算器,它们采集和整理大量的数据,我们在拿到这些源数据之后,有必要检视其中所隐藏的那些协议和技术偏好,尤其是算法按照什么样的规则进行分门别类和数据管理。因此,我们在检视大数据的过程中,有必要将技术的结构与现有的社会结构放在一起,进行比对和相互印证,看技术结构是否与社会结构相重叠,并且复制、强化了已有或者历史存留的不平等、不公正现象。


数据处理


在采集数据之后,就过渡到数据知识生产的第二个环节,即数据处理环节。被收集到的海量数据,经过一系列的技术手段和程序,变成有意义的信息。实际上,我们前文所讨论的“大数据鸿沟”,在数据处理环节同样也有相应的呈现。面对海量数据,只有那些拥有相关基础设施、数据技能的利益相关方,才能从中获取更大的收益,这被学者称之为“数据分析鸿沟”。因此,“大数据鸿沟”本身也应当包括数据分析能力上的对比和差异。所以,我们可以看到,那些有技术手段、经济资源、分析能力的一方,总是能够从数据中获取更多的收益。为了更好地检视这一“数据分析鸿沟”所造成的影响,本节将围绕数据处理的两个核心环节展开,即“用户画像”和算法分析。

(一)“用户画像”:数据处理中对不平等的复制

公司在挖掘数据的时候,使用大数据的方式,有可能会进行一些社会分类,即所谓的“用户画像”(User Profile)。企业在进行数据挖掘的时候,其实是把不同的人群进行分类,给他们分别赋予不同的值,用以表明其风险程度、商业价值,并且会按照已有的分类和不平等体系来对用户进行分组。这可能在一定程度上削弱个体在数据层面上的自主性,而且,建立数据库其实相当于创建另一个搜索索引,把用户进行分类管理,这其实是把用户当成商品来进行制造,而且整个过程是不透明的。在这个过程中,“大数据鸿沟”有可能沿着以下几个方面来体现:第一,数据有产和数据无产;第二,数据分析能力;第三,结构性鸿沟,与技术基础设施相关;第四,创建者与被客体化的群体,即前者有能力创建各种身份和有用处的知识,后者只能是前者的客体、对象,前者可以很好地隐藏自己的身份,而后者处在被监测、被客体化的境地之中,在大数据中无所遁形。这种“大数据鸿沟”会带来几个方面的后果。首先,数据化对用户身份、数据对象的自主权产生影响。个体在数据中被客体化为一个个的数据对象,被分门别类,然后算法会自动决定这些数据对象的特征、性质和值。这就导致用户身份不再是由用户自行进行定义。同时,用户也失去了定义和阐释身份范畴意义的自主权。在这个过程中,这些公司、机构、企业所用到的算法、数据库,完全不对公众开放,由此我们也无法检视其正当性和合理性。这就势必造成整个数据化过程缺乏“透明度”。被客体化的数据对象,完全意识不到从自己身上收集到的数据是用于何种用途,是如何分类,是如何对他们进行画像,这些数据又是怎么进行分析,然后在此基础上公司又采取了何种行为和措施。尽管这种“不透明”在有些时候是公司有意为之(比如涉及商业机密),但是,有些时候其来源是结构性的,嵌入在大数据运行的基础设施之中。

按照布兰农的研究,在密苏里州的堪萨斯城,政府一直使用大数据进行治安和人员监测,这些自动控制系统会针对被监测对象的行为进行数据收集,即被监测对象在大数据上的呈现和表达。正如我们此前所讨论的那样,通过这一数据化的过程,被监测对象在政府部门眼里具备了“可读性”,这其实也增加了个体的脆弱性,由于个体的活动被系统自动收集并在数据集里呈现出来,政府部门或者建制机关就有可能针对这种个体活动展开控制。反过来,如果一个个体的行为并没有在监测网络里面被收集,那么,对该个体而言,这就意味着他在这个数据集里面不存在,这就构成了“代表性偏低、不足或者缺失”的问题,这通常会加深那些被边缘化群体本就不可见或者能见度过低的历史性问题。所以,在数据收集的过程中,这个算法背后的指导意识形态是什么,所针对的地理区域范围,用户的基本信息,这些都必须加以考察,才能看到自动控制的信息系统、数据生产机制是如何复制现实生活中的不平等。

“用户画像”背后所体现的“大数据鸿沟”,会围绕着已有地理空间的阶层区隔展开。堪萨斯城的东边历来犯罪频发,有着居高不下的刑事案件发生率。为了降低犯罪率,政府部门运用社交网络分析软件来识别和定位那些最有可能在未来涉足刑事犯罪的人员。这样的一份人员名单,包括线人提供的情报、交通站点、刑事犯罪记录,算法会自动在这些人员之间勾画出他们的社交路线,放置在同一个社交网络结构中加以监测。如此一来,许多有社交往来的人员就会成为被重点监测的对象,形成了一种“蛇鼠一窝便是有罪”(Guilt by Association)的局面。这样一种预防性的分析技术,让个体深深陷入刑事犯罪系统而不能自拔。

与此相对比,在堪萨斯城的市中心、商业发达地带,这里有一个“智慧城市”项目,布置了多种感应器相互支持的数据收集网络系统,形成了“万物互联”。这些数据的目的是为了让企业家能够更好地进行商业活动。政府部门宣称,他们将数据作为支点,提高生活质量,增加资本投资和民众消费。这里的用语给公众形成了一种强烈的暗示,即人人都可以参与到一个新兴的知识型经济,并过上一种以技术创新为基础的新兴生活方式。通过科技和数据,这个“智慧城市”项目承诺解决我们在城市生活中所遇到的各种难题,其方式就是自动控制系统的反馈以及基于大数据的自动化干预措施。

如果我们详细审视上述两个项目,则不难发现,这两个项目的共同之处在于人们的行为都被量化为各种数据,输入到自动控制系统里面,经由算法加以分类、运算。只不过一个项目的结果是用来监测高犯罪可能性的人群,而另一个项目则是用来推动营销和商业活动。不管是哪一个项目,我们在其中所看到的都不是活生生的、自主的、独一无二的、有创造力的公民个体,而是一系列可量化的数据标签。这些数据标签让城市居民变成了一个可追溯、可预测的数据。在这个过程中,数据是如何收集和运算的,个人的信息是如何被分类的,这些都不是个体能够自主应对和控制的。政府部门也没有想过要打开这样的“数据黑箱”,引导公民进行讨论,共同建立一套公平公正的数据收集、分析和存储体系。从这个意义上讲,我们的算法自我、数据自我压倒了肉身自我、现实中的自我,成为个人身份的决定性因素,我们的主体建构现在要交由一套不经我们控制和检验的自动控制系统来进行,我们生活在一个经由“技术过滤的主体建构”存在状态之中。而且,这两个项目正因为基于不同的地点,把同样的人类行为依据不同的地理位置信息而进行不同的赋值和解读。仅仅因为我们身处某个地理位置,就把我们的行为强制性地往某个分类体系和身份标签上靠,这事实上构成对特定人群的歧视。同一个城市中的居民,其在地理空间上的区隔也毫无二致地在数字世界、数据集合(即“数字孪生”)中得到了复制和体现。毫无疑问,这样的一套分类和身份标注体系,本身对人类而言是一种矮化和化约,去除了人类行为中的多意义性、复调性和多种阐释的可能性,而且是简单粗暴地复制现实生活中的不平等、阶层差异。这势必会引发在房地产价值、商业投资、社会资本等一系列因素上的不平等的强化。

在这个过程中,还有不容忽视的一点就是这样一种对现实生活中“城市鸿沟”(Urban Divide)简单粗暴的复制,还会强化那些经由历史遗留下来的歧视和不平等问题。上述的两个项目,不光是在阶层差异的背景下展开,同时,其背后也体现了深刻的种族对立和在区域上事实性的种族隔离问题。有色人种居住的区域,通常也和居高不下的犯罪率、贫困率重叠在一起。通过对这两个项目的对比,我们可以看到,大数据的权力是沿着社会地理学的维度展开。技术本身并不能做到它们所宣称的那样,可以“无偏见地对空间进行测量”;恰恰相反,技术、数据和运算是沿着现有以及历史遗留下来的种族、阶层差异而展开,往往是强化了社会结构中既有的歧视和不平等。

(二)算法分析:被隐藏的历史偏见

前文的讨论表明,将用户进行分门别类,以此为基础而得出的所谓“原始数据”其实并不“原始”(Raw),相反,其总是嵌入在各种社会-技术的语境之中,这些数据本身也会携带着生产这些数据的那些结构之中存在的各种等级、不平等、偏见和歧视。有时候,这些偏见和歧视是通过一些“未意图的后果”(Unintended Consequences)而体现出来。我们首先可以看“目标变量”(Target Variables)的创建过程和分类标签是如何被定义的。在分类上,总有一些信息是受到重视的,而另外一些信息则是被忽略或不受待见。因此,对目标变量和分类标签的定义,会直接决定数据挖掘的结果以何种面貌呈现出来。如果以这样的数据为基础进行分析,那么,分析结果也会将上述的不平等、偏见和歧视原封不动地保留下来。更加令人担心的是,这种分析结果做出来之后,往往宣称自己是“客观、中立、公正、不偏不倚”的,这样一种被数据构建出来的新现实,实质上掩盖了数据生产和分析背后所隐藏的不平等、偏见和歧视。克劳福德将这种现象称为“数据原教旨主义”(Data Fundamentalism),即认为海量数据集和预测分析技术反映的都是客观事实。

大数据的一个工作过程就是导入大量的数据来训练程序。工程师会开发各种机器学习的算法,这些算法在发展过程中需要用海量的数据来训练自己的模型,从中学习,以便按照某种特定的方式来处理数据。可以想象得到,如果模型所使用的数据本身就是带有各种偏见、偏好和歧视,那么,机器学习算法输出的结果也会相应地携带这些数据之中所包含的“偏见基因”。数据本身无法独立于生产该数据的社会系统而存在,我们社会中各种不平等也会进入到数据结果之中。比如在美国,我们如果要使用现有的逮捕数据来预测未来的犯罪率,那么,这有可能会强化一些种族偏见,因为非裔美国人街区的逮捕率会高于其他街区,这基本上是强化了现有体系里面的种族偏见。因此,在用海量数据训练算法、开展机器学习的过程中,也容易出现结果上的偏见,导致统计学上对特定人群的歧视。

其次,分析特性的选择过程。算法在对大数据进行分析的时候,需要对一些边缘化组别所包含的数据差异进行考量,如果没有这些考量,那就会导致这些组别被排除在结果之外,从而造成系统性的偏差和偏见。有些时候,人们在处理大数据的过程中,还会使用到“代理变量”(Proxy Variables),这些“代理变量”要么无法准确地代表目标变量,要么无法考虑到目标变量背后所包含的历史遗留下来的偏见问题。这种情况尤其在大数据分析中可以看到,因为大数据分析是全样本分析,而非代表性样本分析,因此,这些全样本里面所包含的偏见及其背后所承载的历史遗留问题,有可能都会在大数据分析的结果中得以体现。

当下,在我们的城市建设中,有越来越多的自动设备、感应器和联网计算器,会自动产生海量数据。这些技术依托数字平台和网络基础设施,发挥着自主生产数据的作用。它们指挥着我们的社会运作,并在我们的社会中建立秩序,让越来越多的计量运算在我们日用而不知的情况下不停地运转。在我们看不见的地方,这些复杂的运算不知疲倦地进行着分类、标准化、标记和索引,对象包括公民的权利、特权、谁被包括进来、谁被排斥出去、谁对谁错的规范价值判断,几乎我们生活的各个领域都被涉及。这样的技术,布兰农称之为“数据黑箱”。这些由私人企业操控的软件和基础设施,其实自动携带了许多不为人知、个人形成的决断和准则。这些未经检验的个人决断和准则,成为编写算法的基础、规范算法运作的意识形态、分配算法结果的指导原则。然后,这些数据带着“客观、不偏不倚”的背景光环,又反过来影响到我们的世界观和决策过程。我们经常忘记拷问的一点,即算法既然是商业公司编写的,那么,其背后肯定也要符合公司追逐私利、创造商业利润的逻辑和要求。因此,算法的背后往往隐藏着那些不为人知、未经检验的商业目的。我们需要深思其背后所隐藏的规则、意识形态,正是这样的规则或者意识形态,主导了人们所编写出来的算法,而这些算法所进行的排序、分类和索引就是数据被结构化的初始入口。

我们在使用各种媒体、技术来进行互动的时候,这些技术设备之间也会进行相互的沟通,这都会产生一系列的数据,这些数据事实上构成了人所共知的“信息公地”(Information Publics)。这些公地实际上又可以用来形成可行动的知识,大数据分析就是从这些公地之中挖掘与用户有关的各种数据。但是这样的一个分析过程,本身是不对称的,用户没有能力也没有权限去决定自己被赋予了什么身份、类别和范畴,而对以此为基础的相关行为、决策,我们也毫不知情。因此,尽管我们共同拥有着一大片的“信息公地”,但是,这些公地作为数据富矿被公司和企业挖掘的时候,我们是无法控制这个过程的,从公地中挖掘出来的数据及其相应的分析,我们并没有发言权。并且,在算法上,自动控制系统建立起一套自我参照体系,完全不需要与外界的用户进行沟通和协商,而这种自我指涉的体系,倾向于加重、强化现有社会生活中的分类、分化、不平等和差距。


数据应用


经过一系列技术手段和程序处理的数据,最终将以一种被清洗过、结构化、甚至可视化的分析结果呈现出来。这些数据结果会被直接用于各种用途,包括商业决策、公共决策、行动干预等。以城市管理为例,近年来,地方政府越来越依赖大数据进行城市管理。虽然以前也会使用到测绘和地理绘图科技来参与城市规划,但是,运用大数据以及地理信息系统作为城市规划的基础,这样的技术是随着近些年来“智慧城市”的相关项目进行推动的。随着社交媒体以及各种各样手机应用软件的开发,有相当多的数据被产生出来,而且这些数据都携带有相应的地理位置信息,比如微博、大众点评、高德地图等,这些平台和应用软件都是基于城市生活而产生大量社交型数据。许多之前被忽略的地点,也有可能通过这些平台的数据而被挖掘出来。最关键的是,这些带有地理位置信息的社交媒体数据,可以帮助研究者看到,在城市空间中,这些数据是如何通过线上、线下的各种活动而产生。当然,各种线下、现实生活中的社会不平等,仍然会型塑我们在虚拟空间中所产生的数据。这些数据不会平等地把每个人都包括进去,也不会无差别地对每个人进行呈现和表达。即便源数据是某一群体自己创造的,该数据仍然可能被自动分类的软件算法边缘化,如果该算法认为这个数据仅拥有较低的值。

(一)决策支持

正如我们在此前讨论“智慧城市”中所看到的,大数据越来越多地被应用于公共决策过程之中。在数据的应用过程中,经常会发生的一个情况是那些在金钱、各种形式的资本上具有优势地位的群体,会“俘获”、“垄断”或“主导”决策过程,事实上造成对其他阶层、尤其是边缘化群体的排斥。这个过程凸显的一个问题即参与决策过程不光需要时间和精力,更重要的是还需要掌握那一套话语体系(即所谓的“Political Literacy”,政治素养),而这些能力都是需要学习和培养的。对于边缘化群体而言,他们可能迫于生计,无暇他顾。如果在制度设计上不能为这些群体设置特别的通道,那么,很有可能这些群体就会在决策过程中被无视和排斥,即便他们拥有参与、列席的机会。

克劳福德曾举了一个例子,2012年10月底11月初,飓风“桑迪”袭击了纽约,有学者分析了从10月27日至11月1日之间两千多万条推文和发布在Fourquare(一家使用用户地理位置信息的手机软件服务)上的信息,对比推文和Foursquare的信息是否有交叉重叠或相互印证。对此,克劳福德的批评是,大部分与飓风“桑迪”有关的推文都是从纽约的曼哈顿区发出的,这会给人造成一个错觉,即曼哈顿才是整个纽约受灾最严重的地区。但实际上,还有其他区域比曼哈顿的受灾情况更严重,比如微风点、康尼岛、洛克威。而且,由于受灾严重的地区遭遇停电,许多人无法给手机充电,从而导致无法在社交媒体上发文。这些情况汇总在一起,就会挑战之前研究给人们造成的一个错误印象。许多受灾严重的地区,人们根本就无法使用社交媒体,从而在数据上就无法体现出来,这其实形成了一个“信号问题”。我们都假设,海量的数据会准确地反映现实世界的情况,但是实际上,从数据到现实,中间还横亘着一个鸿沟。这个鸿沟最大的根源在于,有些社群无法发送任何数据信号或者只是发送了少量的数据信号,从而导致在数据呈现、数据表达上的“失真”。从公共政策、公正行政的角度看,如果政府部门根据网民发布有关飓风“桑迪”的推文数量来分配灾害纾困资金,那会造成相当大的问题。

无独有偶,在波士顿,市政府开发了一个智能手机应用软件——“街道颠簸”(Street Bump),市民在波士顿遇到路面坑洼、颠簸或者坑洞时,则可以打开这个手机应用软件,通过GPS定位信息,向市政工程部门汇报这些情况,方便这些部门采取措施,修补路面。但是,在现实生活中,这个手机应用软件也会面临一个使用或者应用不平等的问题。低收入人群持有智能手机的数量更少,而且,上了年纪的公民智能手机普及率也较低。这就导致如果市政府是通过智能手机应用软件来提供公共服务,那么,那些低收入、上了年纪或者数字技能不熟练的公民,就无法通过这一渠道来享有公共服务的供给。实际上,在布鲁塞尔,市政府也开发了一款相似的软件,叫“修我的街道”(FixMyStreet),允许市民向市政府报告需要修补的路面位置和情况。但是,研究发现,这类应用软件会把那些低收入、有色人群社区边缘化。

从上述两个例子可以看出,当大数据在政府的公共决策中得到应用时,其基础是数据在其中发挥的功能,即数据具备某种特定效用或者价值。这里每一步都包含了与数据有关的权利,而且,这些不同的步骤、部分都与下列因素相互关联、“互相型塑”(Mutual Shaping),即社会结构中的主要组成部分,涵盖正式与非正式的制度、社会和技术资源、社会关系、知识资源(知识和话语)。可以看出,学者们关心的是大数据在应用过程中所可能出现的不正义情形,有可能更多地是与数据的形式、流动、使用有关,而不仅仅是技术本身。而且,关于数据,有学者提出了“数据集合体”(Data Assemblage)的概念,即这是一个复杂的社会-技术体系,其包含技术、设备和各种元素,比如话语、制度(建制)、物质资源等,旨在生产、管理、分析和应用数据以及由此衍生出的信息产品;换言之,数据不仅仅是技术或者数据本身,而是一个大的集合体,形成了一个大数据体系。如果我们借用福柯的“话语分析”,或者知识社会学的视角,那么,我们就可以看到,在不同的话语之间,其实存在一个“互文性”,不同的话语相互交织起来,构建了一个何为正当、何为不正当的话语体系,政府部门可以用这套话语体系进行政治-社会控制和治理。相应地,现在的数据治理技术其实也遵循了同样的道理。这些技术让大数据弥散在不同的结构之中,然后通过不同话语之间的相互交叉和相互印证,形成一个“互文集合体”,赋予大数据不断强化的正当性。那些不正义、不平等的层面,则很有可能在这个得到强化和互文的网络中被遮蔽或隐藏起来,变得“不可见”。

(二)行动干预

除了用于支持公共决策,分析处理的数据结果还可用于干预社会行动。最直接的一个例子就是通过搜索引擎,实现对自杀行为的干预和预防。互联网在自杀预防上所起到的作用,在最近十年也得到越来越多学者的关注。搜索引擎在这方面发挥了急先锋的作用,因为许多潜在需要帮助的人群,会首先通过搜索引擎寻找相关信息。如果能够在这一时刻为这些群体提供足够、有效的帮助信息,那么,许多自杀完全是可以预防的。因此,在互联网上,能够在搜索引擎结果中设置及时、有效的信息提醒就显得尤其重要。

在自杀预防上,作为全球第一大搜索引擎服务提供商,谷歌也有所动作。在最初的时候,有一位谷歌雇员发现,在搜索引擎结果中,很容易获取与自杀相关、具有潜在危害性的信息(比如自杀方法)。这可能意味着进行该搜索的用户,正在面临一场自杀危机。因此,谷歌在用户搜索与自杀相关、具有潜在危害性的信息时,就会在搜索结果上面提供自杀预防热线电话,最初的版本包含了14个国家。这个功能上线之后,谷歌发现在美国拨打自杀预防热线上升了9%。于是,谷歌决定将这一功能推广至全球其他国家。谷歌还对自己的搜索引擎结果页面进行优化,让用户能够更好地获取信息,预防自杀。后来,谷歌又实施了一个“自杀预防结果”(Suicide-prevention Result),即那些预防自杀的搜索引擎结果会优先置顶在结果显示页面上,包括线上和线下的自杀预防信息,比如,以国别分类的自杀预防热线、聊天室、网站等。从表面上看,这是一个具备相当社会公益和社会价值的项目,一旦用户在搜索引擎上输入与自杀相关的词汇,搜索那些具有潜在危害性的信息,那么,谷歌的这一提醒功能就能在第一时间、在有潜在自杀倾向群体最需要的时刻,呈现在他们的搜索页面最上端。谷歌的这些“自杀预防结果”,比起传统的自杀干预措施,还有一些数字时代的优势,比如,这些结果是自动生成并贴合用户的搜索关键词,能够更有针对性,其出现也更加及时,尤其是用户在面临巨大认知和情感危机的时刻。

但是,对于谷歌而言,这样一个看上去具有巨大社会效益的项目,同样会产生一些技术上和伦理上的两难境地。一方面,自杀预防自然有其社会价值,谷歌也一直将其视为自己“有社会担当”、承担企业社会责任的一个标志;另一方面,这涉及到用户隐私。如果要大规模地应用和推广这个服务、算法,那么,势必会触及许多地方性、保护个人隐私的法律法规,这与谷歌自身的用户数据隐私保护条款也多有抵牾,因为有效的自杀预防和对算法的优化,离不开对用户数据的获取和分析,即便法律法规或者谷歌的条款允许这么做,长此以往,这一做法也会损害用户对谷歌的信任。

对于谷歌而言,这一项目最大的挑战还不是用户的隐私权问题,而是运用不同语言导致算法输出结果的显著差异。此前有一个研究表明,在德语地区,谷歌的“自杀预防结果”即便对于那些潜在需要帮助的个体而言,其显示的频率也不是非常高。研究人员设置了一个网上搜索行为的模型,动用了1200个虚拟代理人,在搜索引擎上进行操作。如果在谷歌搜索引擎里面输入对自杀预防有帮助的信息(比如“如何克服自杀念头”),那么,十次里面有一次会触发谷歌的“自杀预防结果”(研究统计结果是11%);如果是输入具有潜在危害性的关键词(比如“最佳的自杀方法”),那么,四次里面有一次会触发这个功能(统计结果是25%)。对于德国或者德语用户而言,谷歌的“自杀预防结果”出现的比例偏低。

受这个研究的启发,在全球层面,有学者运用了更多的虚拟代理人,对全球不同地区使用谷歌进行自杀或者自杀预防的搜索进行研究。学者发现,谷歌的搜索引擎结果会随着地区而呈现出一些差异,比如在澳大利亚、爱尔兰、英国、美国这几个国家,如果搜索与自杀相关、具有潜在危害性的信息,那么,会有92%的概率出现“自杀预防结果”。但是,在其他国家,比如日本、德国、巴西、韩国和印度,这个结果出现的概率就低得多,不到40%,其中印度最低,只有11%。如果输入与自杀预防相关的求助信息,则美国和英国会有60%以上的概率出现“自杀预防结果”,德国最低,只有13%。显然,谷歌的算法是把英语的搜索结果设置成与“自杀预防结果”相关的优先语言或者默认语言。这一发现也在研究者对同一个国家或地区的对照实验中得到证实,在那些官方语言不止一种的国家(比如新加坡和印度),研究者发现,使用英语搜索与自杀相关的信息,无论是具有潜在危害性信息还是求助信息,都会触发“自杀预防结果”的显示。但是在新加坡,用中文进行搜索,或者在印度,用印地语和泰卢固语进行搜索,则“自杀预防结果”显示的几率大大低于用英语搜索时显示的几率。这事实上造成全球不同区域、不同语言在搜索引擎结果上的不平等,这会导致全球在健康信息上的“数字鸿沟”。通过机器学习来提高的算法,本身就会产生国家、地区和语言之间的差异,经由该算法而得出的结果,在缺乏人为介入的情况下,很难消除该算法分析结果中所蕴含的差异,由此而导致的行动干预也会呈现出相应的不平等。

因此,当我们准备将大数据的结果应用于行动干预的时候,其实有必要事先对这些数据结果进行一番检视,把这个干预过程的黑箱打开。唯有如此,我们才能看到并理解技术本身所携带的不平等、偏见、歧视及其他不可欲的后果。正因为算法处于公众的视线之外,人们对算法看不见、摸不着,因此,很难对那些运用算法进行决策的企业展开问责,我们的社会治理在很大程度上变得愈发依靠技术官僚或者算法治理。从算法偏见和数字不平等的批判研究来看,公司不见得有意编写一些带有歧视或者偏见的算法。只不过问题的关键在于,在实施这些算法之后,一旦出现了歧视或者偏见的结果,公司却常常没有投入时间、人力、财力和资源来解决这些问题。如果运用算法比没有算法的时候产生一些看得见摸得着的成果和效益,那么,公司就没有动力去进一步的完善。比如,对于谷歌而言,在设置了“自杀预防结果”这一功能之后,在美国,人们拨打全国自杀预防救助热线的比率提高了,对于谷歌而言就已经足够了。要想让谷歌在没有商业回报的项目上投入更多的资源和成本,这也不太现实。


结  语


本文主要从数据收集、数据处理和数据应用这三个环节来讨论我们社会安排中与大数据相关的知识体系,其有可能会在不同的环节“埋伏”着相应的正义与不正义的伦理议题。从“数据源头”可以观察到的“大数据鸿沟”,主要是沿着以下几个维度展开:经济资源、技术设施、分析能力、行动能力、组织化程度(被对象化的个体和手握各种资源的公司或者机构)。那些“数字素养”更高的群体一般都是更加年轻、教育水平更高、中产阶级,一个人的“信息或者数据惯习”(Information or Data Habitus)是与其阶层、社会地位存在高度关联的。很多时候,人们会认为信息技术促进了民主参与,不过,对这些信息技术成果的享有和分配却仍然是不平等的,媒体平台其实还是复制了那些处于更高阶层和社会地位的人的观点。而且,这些拥有数字优势的群体,本身在现实生活中也处在优势的权力地位上,更加有可能对其他在数字上处于弱势地位的群体施加影响。即便我们现在所欢呼的“用户生产数据”(User-generated Data),本身也是嵌入在整个信息资本主义的框架之中。用户记录自己的身体健康数据、运动数据、网页浏览、社交媒体上的互动,这些都创造了大量的内容和数据,这些用户其实是参与了一定形式的无报酬数字劳动,公司管理、储存这些内容和数据,对其进行商业化处理,从中获利。在这个过程中,用户并不能对其生产的数据主张所有权和控制权。

在“大数据鸿沟”的背景下,考虑到在全球范围内不平等都是一个普遍的现象,有学者呼吁,要开展那些“促进平等的数据倡议”(Pro-equity Data Initiatives,PEDIs),这些倡议旨在为那些以前“无数据历史”(Historical Datalessness)的人群创造条件,让他们可以进入大数据的视野,在城市数据中获得代表性,并且可以获取和使用这些数据。这样的一些倡议包括在社区里面布置无线网络接入点,让数据能够从这些低收入、居住环境欠佳的区域进入自由流动,让原本被边缘化的人群获得自己的数据、信息权,创建数据集、数据库,进行社区画像,让这些被边缘化的社区同样能够进入决策者的视野。

而且,有些国家和地区还出现了一个自下而上的“量化自我”(Quantified Self)运动,参与者旨在主张自己对数据的所有权,通过这种方式,“软性地对抗”公司、企业和政府部门对大数据的垄断。这场运动里面的参与者旨在夺回自己对数据的所有权,并在数据收集和分析的过程中发挥积极主动的作用,这样参与者就不再被动地被各种建制从自己身上收集、分析和应用数据。反过来,他们可以主动参与针对自己的数据收集、分析和行为,在里面主动地构建与数据有关的意义和行为。也有学者讨论我们如何构建数据体系,从而促进社区参与和公民赋权。随着民众“数字素养”的提高,我们也可以通过数据收集方式的创新,赋权民众,这一过程被称为“数据制造”(Data Making),与传统数据收集方式相比,差异点主要在于个体不再只是被动、等待被收集数据的对象,而是在适当资源的支持下,成为积极主动的数据生产者和消费者,在大数据中发挥更多的主观能动性。

当然,从世界体系的角度来看,我们也应当注意到与数据收集、处理和应用相关的不正义议题,其不光会发生在一个国家、地区或者族群内部,也会在国家与国家、地区与地区、全球南部与北部之间发生。为此,有学者呼吁,我们需要对全球南部地区、发展中国家和地区的大数据应用有更多了解。在欧美国家被批判对待的数据收集和分析方式,有可能在发展中国家是作为赋权、发展目标的形式而存在,会有不少的发展中国家视大数据为发展目标和推动本国、本地区发展的有力助手。这些认识上和应用上的差异,也需要进行一个对比和分析,以防学者不自主地携带“殖民主义”或“后殖民主义”的眼光,把全部北部和南部地区一视同仁、无差别地进行对待和处理。如果不能从地方的语境中对大数据所可能产生的问题进行一个更为在地化的理解,那么,这就有可能复制这些议题从欧美传输到发展中国家时所产生的殖民主义困境。当然,这中间还有一个语言问题,以算法和大数据为基础的不平等其实还体现在网页内容上,因为这些内容是以不同的语言作为载体的。因此,在信息的获取上,不同国家和地区的用户存在语言上的差异以及由这种差异而产生的数据应用的“等级制”。我们在制定与大数据相应的发展政策时,必须要充分考虑到不同地区和国家之间的差异。总而言之,与大数据相关的不正义情形,需要学者进行更多的研究和探讨,唯有如此,我们才能在政策和实施层面推动“大数据的平权”。

 


往期推荐

《社会科学》往期目录


《社会科学》往期摘要


刘旭光|论“审美”的七种境界——关于审美的有限多样性与超越性


张梦晗|国际视频博客讲述者跨文化传播中的互文性实践


曾祥敏 戴锦镕|新媒体语境下新闻反转、舆论生成机制和治理路径探究——基于2014—2020年典型反转新闻事件的定性比较分析研究


全 燕|从独白到复调:超越国家叙事的对外传播话语想象


樊小玲|想象到知识:公共空间话语进路与知识图谱中的“中国”


梁凯音 刘立华|跨文化传播视角下中国国际话语权的建构


陈 龙|战略竞争框架下的美国遏华国际传播策略探析


《社会科学》杂志

唯一官方微信平台


微信号:shehuikexuezazhi

理论创新  学术争鸣  战略视野  现实思考



: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存