查看原文
其他

吴静丨算法为王:大数据时代“看不见的手”

作者简介


吴静 南京师范大学哲学系教授,博士生导师。香港大学哲学博士。研究方向为国外马克思主义与政治哲学。

摘要:大数据时代的来临使得数据的重要性日益突显出来。但数据并不等于信息,孤立的、零散的、杂乱无章的数据意义有限,它必须经过被提取、精炼以及再组织,才能有效地呈现出信息。数据的提取和分析首先要解决的是目的问题,即大数据的决策结构设计,而这正是算法的任务。算法实际上是数据使用的问题式,它决定了数据在何种意义上可以成为信息。但算法本身是公正无偏的吗?它在数据分析中到底扮演了什么角色?依赖于算法的数字经济本身是否经得起透明性的挑战?这必须要从对算法的批判性认知开始。

关键词:数据 算法 歧视


原载《华中科技大学学报(社科版)》

2020年第2期


当历史跨入互联网时代,“数据”成为一种极为重要的资源横空出世。数据传递的速度与效率决定着经济体是否能在竞争中占据有利的地位。随着互联网的普及,其低价、高效、无边界的特性更以非同一般的加速度将整个世界纵深一体地卷入其中。“数字化生存”无论在个体还是在社会经济层面都从预言走向现实。云计算、物联网、5G技术以及人工智能纷纷从研究前沿转向近距离生活。“大数据时代”的来临使线上与线下的界限变得模糊起来,每一点私人或社会性痕迹都以数据的形式被捕捉和记录。一种乐观性的看法倾向于将这种覆盖全球的数字化网络所负载的信息看做共享性的“一般数据”而加以赞扬,并将其与作为基础的、“去中心化”的互联网系统一起视之为新的自由的可能性。事实真的如此吗?对数据的这种过高期待是否有可能回落到更具有批判性的分析上来呢?

一、从“数据挖掘”到

“事实(意义)挖掘”

自20世纪后期以降,数字化网络的发展和应用已经不再单纯地作为一种辅助性的工具系统,甚至远远超出了信息产业的单一领域,渗透和嵌入社会经济的几乎各个层面之中,它既产生也依赖于各种电子化的数据。于是,当“大数据时代”的称谓越来越取代“信息时代”而成为时下一切问题讨论最鲜亮的背景色的时候,人们常常会有一种直观主义的错觉,认为数据等于信息,或者说数据是信息最先进也最优化的表达形式。数据的提取或捕获直接导向目的性,而大数据本身则意味着超大容量信息(或知识)的自然呈现。也有人将数据视为生产资料或资产,认为它只有实现商业价值才有意义。实际上,数据并不会自然地产生信息价值,也不必然涉及知识或目的。数据的产生由来已久,甚至早在有电子记录之前已存在,只是借助于计算机和互联网技术才使得对海量数据的记录和存储成为可能。物联网(the internet of things)的出现更使得数据的产生超越出传统的范畴,记录个体生活的每一个可能的侧面和细节,从而产生了大量的数据冗余。但数据的收集和分析并不是一个自然而然的无阻力过程,它必须经过被提取、精炼以及再组织,才能有效地呈现出信息。并非所有的数据都有意义,大多数数据需要被清理。即使是留存必要的数据,也必须经过标准化再组织过程并尽可能减少冗余。

孤立的、零散的、杂乱无章的数据意义有限。数据量越大,其间的联系越多维,能够产生的用途也就越大。这也就意味着,所谓的“大数据时代”的形成需要两个必要的条件:首先,是数字化技术在社会生产生活等多方面的普及,各种商用、民用软件系统及平台对日常数据的捕捉可以以高效低成本的方式进行;其次,高能介质的出现则使海量数据的存储成为可能。在这样的前提之下,数据作为一种新的资源,其重要性和影响日益突显出来。但即便如此,这样被存储下来的数据如果不经过提炼、分析和优化,仍然是不具有可读性的,它们就如同一堆胡乱摆放的音符,并不会自然组成或优美或震撼人心的乐章。于是,读取数据的能力就成为企业(数据价值的发掘最早体现在商业上)提高竞争力的核心能力,并且随着这种重要性的进一步彰显,也催生出专业从事数据提取和分析的行业。

然而,数据的提取和分析首先要解决的是目的问题,即大数据的决策结构设计,而这正是算法(algorithm)的任务。在计算机研究领域,算法指的是用一系列可执行的清晰指令的系统方法描述、解决问题的策略机制。用哲学的语言来说,算法实际上是数据使用的问题式,它决定了数据在何种意义上可以成为信息。在直观主义地将数据等同于信息的理解模式中,人们通常以为只需要借助于一定的专业性方法,就可以使数据的有效性体现出来,但实际上,这样做对于分析方法的确定和数据之间关联的判断则常常导致过于依赖经验主义。一个显而易见的事实被忽略了,即数据的生成和显现本身都是符码性的,它们是某种事实(fact)的表征,它和自然语言一样,同样是社会关系的构型。然而,另外一方面,它和自然语言不一样的地方在于,任何一种自然语言体系都是一个由文化和习惯赋予了意义的既定结构,它从概念本身到有意识的表达都被这个意义体系内在化,而数据则完全不同,它的生成和在场都以不连续性的方式体现出来。不是所有的数据都具有同样的重要性,不是所有的数据之间都具有相关性,甚至在不同的分析方法中,数据之间的相关性也可以发生改变。这也就意味着,数据作为一种语言构型,它不是如自然语言一般在既定的意义框架内显现,它对事实的表征,它所表征的事实具有的意义都需要被建构性地生成,甚而是动态性地生成。

阿尔都塞在著名的《意识形态与国家意识形态机器》中曾用“质询”(interpellation,也译作“唤问”)来描述语言和主体的建构性在场的关系。“通过我们称之为质询的那种非常明确的活动,在个人中间招募主体(它招募所有的个人)或把个人‘改造’成主体(它改造所有的个人)。”然而,在这一被强烈构架起来的质询场景中,被质询的个人(阿尔都塞戏谑地将其称为“演员”)的立场却并非是封闭和固定的,而是在不同的情境(在阿尔都塞那里是意识形态)中条件性地被建构的。语言质询的实施通过各种在语言结构内部早已被结构化的概念或范畴对被质询的个体进行选择或排除,以确定个体的社会性定位(角色),并要求他(们)/她(们)按照被质询的身份行动或应对。这些结构化的概念或范畴包括但不仅限于性别、职业、年龄、族群、阶级,等等。这些因素并非外在化的质询本身加诸被质询者,质询的过程只是使得在被质询个体身上以“潜存”(the virtual)形式存在的构型定位在质询所制造的情境中变为“实存”(the real)。数据的被调用过程正是一个与此相类似的运作。然而,略微有所不同的地方在于,与质询对主体的建构过程相逆,数据的意义给予并不是预先被设定好的。也就是说,阿尔都塞的质询过程所使用的区分性因素(性别、职业、年龄、族群、阶级,等等)不但早已在语言或文化的语境中被高度结构化,同时也是被质询个体自身身份的某个维度。而数据则不同,数据的获得是随机或零散的,并非来源于它后来所构建起来的意义(或真相)。数据真正的意义不取决于它的来源方式或本身,而取决于将它与其他数据联系起来的意义承载模型。

这一视角提供了理解算法的路径入口,因为构建起数据的意义模型的正是算法。当一种算法被制造出来的时候,零散的数据被给予立场并与其他数据之间建立起联系。算法不是数据的内在结构,它是被有目的性地制造出来的数据的外在性空间,从而具有生产上的无限可能性。也正因为如此,即使是最日常的数据,也可以被不同的算法多重地质询。不同的目的产生不同的算法,它既取决于经验性的判断,也体现出对未知进行探索的可能。算法的不同目的和结构创造了数据之间的关系,这些关系在算法之外未必成立。大数据真正的力量不在于挖掘数据,更不是对已经被电子化的数据的事实来源进行复原,而在于寻找数据之间已知或未知的关联性,即对数据所表征的真相或意义的挖掘。数字经济所依赖的恰恰是对数据背后的真相和意义所进行的判断。

算法对数据的质询与其说勾勒出数据的边界,倒不如说是建构起了数据的综合总体性表面。数据本身对算法并不具有附着性,但却依赖于算法而呈现出表征;同时又由于算法制造的不可穷尽性,数据的多重功能性则体现为消散的不连续性。简单地说,算法不是数据的形成规则,只是数据的使用规则,它在数据的不连续性之上构筑起有条件的总体的同一性。福柯在《知识考古学》中对陈述的条件性变迁的论证在这里可以借用来理解数据和算法的关系:这些条件和界限是这总体在其中出现的其他陈述总体强加于它的,是使用和应用它的范围,它应该发挥的作用或功能强加给它的。像地球是圆的或物种进化这样的断言在哥白尼前后,在达尔文前后,都不构成相同的陈述。对这些如此简单的表述来说,并不是意义改变了,被改变的是这些断言与其他命题之间的关系,是它们的使用和重新投入的条件,是经验的可能的证明的以及我们能够参照的要解决的问题的范围。也就是说,具体陈述所建构的意义并不完全来源于它自身的语言,而在于它所处的情境赋予它的条件和功能,因而陈述本身不是一个变动不居的完成体,而是处在不断的生成建构之中,随着外在性而变化。

由此可以看出,外在化的算法的建设本身是战略性的,任何一种算法都不是理解数据的唯一模式或途径,而只是提供了一种可能性塑型。也正因如此,每一种算法所挖掘出的“真相”或“意义”也并不比其他的模型更具有绝对的优越性(当然,在同一模型下,数据所涵盖的范围不同也会导致不同的结果)。从本质上而言,算法是一种关系性生产系统,连接导致生产,连接的频率、维度和方式的不同形成结果的多样性和差异性。正如算法不是唯一的一样,连接也不是唯一的,甚至是可以被取消和否定的。算法不是万能的,它的合法性也不能被默认。作为一种被构筑的话语,算法的正确性(更准确地说,是合理性)决定了数据之间的连接合理性是否为真。在不合理的算法之下,数据之间也可能建立起伪联系,这就需要花费更多的时间从经验或其他算法中去验证。因此,对大数据的理解或谈论必须从对数据和算法的本质开始,一个值得也必须被追问的问题产生了:它们的客观存在与事实(或意义)之间存在必然的联系吗?

二、模糊的边界:

数据校准现实

热衷于言及大数据时代的人常常认为海量数据足以刻画出“所有时代所有地方的所有信息”。电脑、手机和平板电脑与现代通讯线路的无障碍对接不但使我们以远程在场的方式与全球发生联系,而且越来越多的智能装备(家庭恒温系统、警报系统、监控系统、智能家居中控、无人驾驶汽车、聊天机器人甚至可穿戴设备)实现了机器与机器、人与机器的对接。“一般来说,人们知道如果上网的话,信息可能会被收集走,但是他们不知道,当自己启动洗衣机、打开冰箱,冲澡或上床休息,都会留下信息。”于是,一方面,人比过去任何时代都更接近于世界和其他人,另一方面,传统的直接在场与联系的方式被数字化生存改写。线上与线下、实体与数字的边界日益模糊,甚至相互渗透。“美团”和“饿了么”了解你的口味偏好和订餐历史,“淘宝”和“京东”清楚你的需求类型和消费习惯,移动和电信可以根据你在特定时间内的漫游记录给出你的足迹,搜索引擎知道你的好奇心和最深层的疑问,电子导航系统不但清楚掌握你走过的所有路线和出行方式,并且会根据你的日常记录,指导性地给出特定时间段内特定交通路线的通行状态和建议……更有甚者,你一旦离开所在城市踏足外地,你会立刻收到应用软件根据你过去的订房情况给出酒店参考以及根据你的订餐记录给出周边餐厅选择!

前面谈到,数据和自然语言一样,是以符号或符码显示的社会关系,但和语言不同的是,数据是一种纯书写。德里达将书写的本质性特征定义为间隔,即“间隙和时间的那种空间生成、意义在某一新场所的展开。……在意义的……非纯语音的间隔中,不再服从逻辑时间、意识或前意识时间,‘语词再现时间’的那种线性的互联关系是可能的”。这实际上是对数据的非情境性特质的确认。吉登斯更是以阐释学的立场对“书写”和“言谈”进行了区分:“言谈暗示着社会活动……言谈植根于人类交往的实实在在的语境中。因此,语言才牢固地停泊于社会现实,与语言复杂性相联系的不是语言的内部结构,而是语境相互作用的复杂排列……书写缺乏具体情境下的言谈所具有的复杂性”。这种去情境化的纯书写特质在数据身上体现得更为突出,它以极端的形式化瓦解了一直以来对语言的语境进行辨认的各种社会坐标。数据被高度地抽象化,这使得它的传输和存储更加便捷,但同时也使得德里达所说的传输者与接受者之间的间隔被无限扩大。如果书写的基本原则是延异(différance),数据则是趋向于绝对的延异,它在时空存续和纯形式化两方面做到了极致。

然而,绝大多数迷恋于大数据的使用者并不会意识到数据的这种后结构主义特征,在他们眼中,数据既然来源于日常现实,自然也可以逆向地被还原为现实(或事实)。但事实上,数据的现实源头从来不是它承载的意义,它的意义取决于它的被使用。从这个意义上而言,数据又是一个非表征性的系统,其目的从来都不是对所被记录和提取的现实表面进行还原。算法之所以成为数据的问题式,正在于它作为一种纯粹的外在性对数据进行了统摄,它是数据的使用规则,而非生成规则。与此相对应,数据和算法的真正力量在于它的使用者,而非产生者。这一点从美国1974年通过的《隐私法案》以及《信息自由法案》的管制重点都是在联邦政府对所拥有的数据库的规范性使用中可以看出。

算法使得数据和它的来源产生了距离,使用者依照其目的借助算法对数据进行重新编码和提炼。而这产生出另外一种风险,与将数据等同于现实的经验主义做法不同,这种风险来自于使用数据对现实进行校准。这一趋势所产生的后果是数字化存在对实体存在的全面渗透,线上线下的界限日益模糊,个体性在不同的方面同时面临被漠视和被增强的双重命运。

全面数据化是一个全新的挑战。人的一切被还原为数据,零散的数据则通过被记录而归于大数据。虽然孤立的事件或个体所展现的数据表现为非结构化或半结构化特征,但经过算法的调用和高度组织化处理以后,原先毫不相关的数据之间却建立起相关性,从而显现出巨大的价值。在这个过程中,作为对象的数据本身和作为中介的算法依然是中性的,但算法的设计却蕴含着特定目的的存在。可能有人会争论说,互联网时代的一个根本性特征就在于数据甚至算法的使用权可以作为公共资源,而并非排他性独有,但这种表面上的共享性却依然被不平衡的权力所决定。于是,围绕着数据的占有和使用上的不对称,一方面,一部分人依靠对数据和算法的垄断获得更大的权力,而另一方面,分散的用户却在毫不知情的情况下被剥夺了部分权利。这种落差甚至会愈演愈烈。

从纯粹技术性的层面理解数据和算法忽略了历史唯物主义最强调的一个方法,即分析对象本身所具有的社会基础。作为工具的技术从来不是一个独立于社会之外的存在物,它总是为着特定的目的而服务,网络不例外,算法也不例外。资本的涌动可以穿透一切边界,达及所有领域,逐渐加深对个体日常生活以及生命各个维度的捕获。数据理所当然地会成为商品,对数据的分析更加如此,它是以对数据的评估和反馈为核心形成的专业化产品和服务,它们不但不会置身于资本的视域之外,还可以作为更不易令人察知的牟利的途径。

有人用“透明人”的概念来描述大数据时代人的生存境况。无线网络的全面覆盖、智能手机和其他设备的普及使得每个个体成为一个数据发送的基站,只要连接,所有的数据都会源源不断地被发送出去,形成电子符码化的表征。在不同的算法模型中,数据被无条件地调用,而个体本身却一无所知地缺席着,出现的只有数据。启蒙理性所倚重的中心化的主体以离奇的方式在场,却不断地在缺席状态下被去中心化和重构。双重的匿名性在这里产生了:数据的产生者是匿名的,它只具有统计学上的意义;算法的调用是匿名的,不出场的,自动的甚至是随机的,只服务于纯粹的功能性。这种功能性以简笔画的方式确定了主体在数据中的存在形式,并根据这种存在形式为其量身定制所需要的服务。

一个有趣的悖论产生了:在以统计学意义上的子集进入数据中的个体在商业经营策略中被以一种极度个人化的方式对待。这正是以大数据作为支撑的后信息时代的商业的标志化特征:精准营销。由于数据的无微不至,针对个体的商业定位就可以变得极为精准。这也是众多互联网平台共同的盈利模式。在这一方面,走在前列的是谷歌和脸书,而后来的百度也毫不落后。它们无一例外是通过占有大量的用户资料和数据(这些信息最初并不是用来贩卖,而主要是致力于完善用户服务),从而吸引广告商参与竞拍。无论这三家公司建立的初衷和最初兜售的服务是什么,它们都早已完成了从服务提供向依赖广告收入的转变。2016年第一季度,广告收入分别占到了谷歌和脸书收入的89%和96.6%,而百度则占到了91%。

“用户的注意力在哪里,广告主的钱就投向哪里”,这条原则在大数据时代得到空前的运用。广告商对互联网平台的青睐正在于它们对数据提取和分析的有效性使得越来越多样化的顾客需求可以被追踪和满足。在算法经济中,娴熟的玩家通过各种途径提升自己对于客户群数据的获得,以强化自身在充满变数的市场竞争中的反应能力。这是一个极度个体化的时代,然而这种个体的建构本身依旧是充满悖论的。表面上看,精准营销似乎以其关怀备至的体贴迎合着主体的每一点哪怕最细微和独特的需要,线上的环境日益变得个性化。但在算法与技术的合谋之下,极度的个性化的所谓“精准营销”不仅提供了精准的产品和服务,也提供了精准的价格:名为“定价优化”的价格歧视政策,诱使有特殊偏好的、易于冲动的消费者以更高的价格为自己埋单。因此,在丹·席勒看来,大数据时代不但不是传统的马克思主义政治经济学问题得到解决的时代,反而促使资本主义的矛盾完成了现代化,而这其中,最新、也最关键性的问题在于算法。它到底扮演了什么样的角色呢?

三、算法歧视:

客观公正下的暗藏玄机

在现今社会,商家越来越多地使用算法来为客户提供服务,政府、学校等机构也会利用算法来帮助其日常工作,比如制定政策、调整课程和教学方式等。诚然,互联网技术的普及和大数据技术的运用所带来的商业的繁荣和生活的便利似乎都在为社会发展的愿景规划出了一个极具建设性的承诺:科技改善生活。然而,在这一迅猛发展的进步背后,整个互联网生态系统(算法设计、应用软件开发、平台操控、不同的商家)形成了合谋,它不仅对传统市场进行了结构性的重构,使得生产和消费的行为模式完全发生改变,甚至使整个市场体系所倚重的自由竞争法则受到了挑战,改写了当下经济的胜者法则,使遮蔽和垄断比过去任何时候都更容易形成。由于大数据对于使用者的天然倾向性,“信息鸿沟”必然在商家和用户之间产生,这实际上是社会权力不对称的一种布展。商家很容易借助海量的数据和精妙的算法搭建起类似“上帝视角”的全视能力,零散的用户则在手机或电脑的面前,满足于由互联网网站或平台提供的无所不及的搜寻做出决定和选择。然而,后者常常忽略了一个问题:技术所提供的信息的透明性是否以及如何得到保证呢?

从表面上看,算法是通过运行计算机程序来运作的,无感情的计算机程序输出的结果要比有感情的人更加客观理性,更加独立公正。可是,算法真的能做到中立和公正吗?事实可能并非如此。与信息表面上的透明性相反,算法一直隐匿在后台,以不可见的“黑箱”状态运行。甚至至今为止,很多人也并不清楚它的存在和作用。各种应用软件和智能设备负责记录和收集数据,算法则作为数据的管家,按照特定的意图对数据进行筛选和分析。如果说前一过程在今天已经为越来越多的用户察知并警惕的话,后一过程则是远离人们视野,在暗中悄悄进行。算法是名副其实的“看不见的手”,它和用户唯一的对接方式是结果的输出,而这则被当做由数据和机器共同保证的客观正确性。

然而,算法不是机器自生产出来的,算法的背后是人,算法本身是人创作出来的。没有任何一个写算法的人能保证自己完全做到客观公正,那么算法的结果又怎能保证客观?很多机构(最显而易见的是商业机构)使用算法的目的之一正是通过算法结果来引导算法用户。算法是人类智慧的产品,算法设计者和实现者的设计意图、认知水平、价值观、精神状态等都会对算法产生影响,人类或者说算法制作者的需求和利益更是决定了算法结果的倾向性。因而,揭开算法的神秘的外衣,它和其他所有产品一样,是对某种社会性需求的迎合。不过,与其他消耗性终端产品不一样,在今天的经济结构中,网络与现实界限的相互嵌入使得人们的日常行为不但潜在或显在地受到算法的左右,更日益形成对算法的依赖。于是,算法被设计时的初衷毫无疑问地体现了特定的社会利益结构。

以前面谈到过的线上广告行业为例,互联网时代的广告趋势之一是精准广告投放,精准投放的意思是针对不同群体所需要的商品和服务投放特定的广告,甚至是针对单个个体的个性化广告。这和从20世纪上半叶开始的平面媒体广告和电视广告的大众性不同,互联网媒体的广告投放将受众不断窄化,甚至做到因人而异。不同在线购物网站会根据使用者的购买记录和浏览记录来展示相应的主页显示和推荐商品,这已经人尽皆知。这就好比,不同的人去看同一个杯子,每个人看到的都不是杯子本来的样子,而是场景设计者想要她/他看到的样子,或者说是杯子的特定元素的不同展现(例如,用户喜欢的风格、颜色、设计师、使用情境,等等)。当然算法的这种预设是它从所占有的用户数据中推测出来的,由此可以看出,算法背后的那只手以提供精准服务的名义,对用户的喜好进行了评估和预测,却因此对用户获得完整客观的事物面貌的权利形成了侵害。

另一个更容易引发关注的是算法带来的歧视问题。亚马逊公司开发的“简历筛选系统”的筛选结果显示,该系统对男性的简历存在明显的偏好,当系统识别出女性相关信息时,会给出较低的评分。另一些研究者发现,在搜索引擎中,搜索有色人种名字的结果中比搜索白人名字会更倾向于出现提示存在犯罪记录的广告。其原因在于,一是用来训练这些算法的简历或搜索数据集,本身就带着强烈的倾向性;二是算法谱写者自身的偏见可能会体现在他们所构建的数据分析的模型或框架中,从而影响算法的结果。因此,算法所给出的答案实际上不过是将反映在互联网产业中的倾向性展现了出来。这种歧视倾向既不是互联网技术所产生的,也不是新近出现的现象,它是人类社会内部所包含的偏见或冲突的现代化公开。不是技术问题,而是社会问题。归根结底,算法是人类思维的产物,只要人类的偏见和歧视依然存在,算法歧视问题就不会消失。

就这个意义而言,作为人工智能技术核心支撑的算法依然是带有伦理性的,它在提供技术服务的同时,也布展了价值观,并且由于它所扮演的角色,它可以将隶属于特殊群体的偏见或价值取向扩大化,以貌似公正的方式形成社会共识。算法实际上像一面镜子,它将社会中业已存在的不平等现象悉数反映出来,并且与现实中的歧视相比,算法歧视还带有明显的技术性特征,即精准性、多元性和隐蔽性。算法对数据分类和筛选的标准更加量化和细微,可能涉及和涵盖个体的一切方面,甚至是偶然性行为。个体被客体化为刻板的数据,其动态和综合的可能性被漠视,而依据某种倾向被暗中评估或引导,甚至毫无申诉的可能。

其次,算法使用的数据是决定算法结果的基本要素之一,如果系统使用的原始数据是不中立、带有偏向性的,甚至是被污染的,那么系统的结果自然也不能保证中立。如果说在上面所举“简历筛选系统”和搜索引擎的例子中,训练数据的偏向性尚是算法开发者有意为之的话,那么2016年微软公司的AI聊天机器人Tay在上线仅一天就被网民“教坏”,频频爆粗口,甚至变成了种族歧视主义者,这反映了貌似开放公正的利用网民聊天信息来训练的AI算法,最终走向了一个严重偏离中立的结果。

客观地说,算法的原始数据从根本上而言不可能是完美的。追求客观数据是一种理想和目标,在获得数据的过程中总是存在这样或那样的因素和障碍,以至于影响了数据的客观中立。我们现在号称进入了“大数据”时代,大数据的本意是“海量数据”而并非“全数据”。要获得“全数据”,是一件极其困难的事情。首先,想要收集完整的数据,需要有相当完备的保证,包括雄厚的资金、可靠且全面的信息源、合适的采集方式,等等。其次,在很多领域中,其本身也缺少系统完整的数据积累。此外,由于机构壁垒、信息安全等因素,只有一部分数据能公开或通过一些途径去获得。数据样本的不完整,必然会使算法结果出现以偏概全的问题。

除了数据的不完整性,数据的采集质量也不可能是完美的。受限于采集工作者的技术水平、采集设备的可靠、稳定性等因素,采集到的数据质量可能跟设计者在制作算法时所设想的大相径庭,更不要说数据造假对数据造成的污染了。很多网民都有所了解,在网上看到的对一个餐厅或酒店的评价,不一定是消费者的真实反馈,而很可能是商户自己刷好评刷出来的。尽管可以针对数据中可能的不良状况进行数据清洗,但是这不能完全清除数据中的污染。由于人类本身存在的局限和偏见,数据和算法程序都是不完美的,那么算法的推论自然也很难做到完全的客观公正。

最后一点,算法作为一整套机器识别的运作规则,其认知方式和人类完全不同。后者可以依据抽象的概念和具体的情境进行思考和做出判断,而算法则主要考量被量化的属性的权重数值。这种识别方式很难对复杂的人类情境进行复原,因此两者之间的偏差就不可避免地会出现。

以大数据作为基础和支撑的数字经济和智能化趋势无疑是这个时代最鲜明、最具有活力的方面之一,而当人类的生活越来越多地依赖于互联网和智能技术的时候,算法这只“看不见的手”所发挥的作用也日益加重。一种健康的发展趋势要求市场和算法都需要面对透明性的挑战,对此,从技术层面到制度层面,我们是否都准备好了呢?


(推文编辑:宴安)

(注释在此省略,请您参见知网版本)


往期回顾

01  |  

林歆:机器人的诞生与人的神化——纪念“机器人”概念100年

02  |  

黄鸣奋丨成为艺术家:基于新媒体艺术与科幻电影的人工智能想象

03  |  

吴红涛 | 机器入身:微机器时代的身体景观及其问题反思

04  |  

卢文超:迈向艺术事件论——人工智能的挑战与艺术理论的建构

05  |  

江玉琴、欧宇龙 | 后人类身体的文学迷思:以《人们叫我动物》为例


欢迎扫码关注 机器人人文

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存