查看原文
其他

数据主义之于新闻传播:影响、解构与利用

陈昌凤 新闻界 2023-03-26


摘要    数据主义的兴起及其计算思维正在成为一种流行的意识形态, 为我们认识新闻传播业态的演进带来了新的契机。数据化作为数据主义的核心机制, 在网络化、 数据化与云端化三个阶段推动了新闻业的数字 化过程, 促成了新闻业的结构性变革与功能性变革。数据主义不仅试图从根本上变革新闻业赖以生存的媒介生态, 而且将挑战新闻从生产到运营的全流程运作, 诸如真实性、 客观性与社会责任论等规范都将发生新的变化。我们有必要在数据主义大行其道之时保持警惕, 要强调人文主义是人类所有价值观的底线和核心, 秉持价值理性与工具理性的协同平衡, 维护人类社会的可持续性发展。


关键词   数据主义;数字新闻;新闻规范;人文主义



大数据、智能算法等技术催生了新的哲学思潮,数据主义的观念和思维成为一种流行的意识形态。它不仅是一种哲学思想,而且成为大众化的思维方式。本文尝试在厘清数据主义内涵、特质及其对人类和社会挑战的基础上,探讨数据主义对传播的结构与功能的变革,及其对新闻业的惯例和规范的影响。



一、数据主义的挑战


数据主义(datalism)是在大数据与人工智能技术兴起之时出现的一个新的技术哲学思潮,它全方位地影响着人类的现在与未来。在不少学者的论述当中,“数据/大数据”与“数据主义”等概念是交叉运用的。


(一)无条件相信数据


数据主义这一概念最早出现于《纽约时报》的一篇评论中。2013年2月4日,《纽约时报》专栏评论人布鲁克斯(David Brooks)发表《数据哲学》(The Philosophy of Data)短文,首次提出“数据主义”这一概念:“如果让我来描述当今正在兴起的哲学思潮,我会称之为数据主义。”在日益复杂的世界中,依赖数据有助于我们减少认知偏差并“阐明我们尚未注意到的行为模式”,“我们有能力聚焦海量信息,这种能力似乎带着一种确定的文化假设,即一切能够被测量的都应被测量,数据是透明可靠的滤镜,帮助我们过滤掉情感主义和意识形态”。


2015年,一部以《数据主义》为名的著作出版,作者是曾活跃于科技报道领域的《纽约时报》记者洛尔(Steve Lohr),他宣称:“我们已经进入大数据时代……从长远来看,大数据技术必将发展成为数据驱动的人工智能,驻留于数码巨力与物理世界的顶层。”大数据是信息经济时代的主要原材料,而工业革命时代的原材料则是煤、铁和石油。大数据催生了大量技术,数据主义是一场发生在决策、消费者行为以及几乎所有领域的颠覆性革命。


2016年,赫拉利(Yuval Noah Harari)新出版的《未来简史》中宣称:大部分的科学机构都已经改信了数据主义。数据主义认为,宇宙由数据流组成,任何现象或实体的价值就在于对数据处理的贡献。所有竞争的政治或社会结构均能够被视作数据处理系统。“我们可以将整体的人类解释为单一的数据处理系统,而人类个体则充当其芯片。”数据专家应该希望通过连接到越来越多的媒介来推动“数据流的最大化”。


诸多大数据的拥趸持有相似的观点。2011年世界经济论坛就曾宣称,个人数据将成为新的“石油”——一种21世纪的宝贵资源;个人数据成为一种与资本和劳动力相当的新型原材料;2012年在瑞士达沃斯举行的世界经济论坛也曾发布过一份题为“大数据,大影响”的报告,将数据宣布为一种新的经济资产,一如货币或黄金。


大数据正以空前的速度和规模渗透到人类社会生活的方方面面,在一定程度上它已经逐步改变着人们观察、认识、思考乃至生存与发展的方式。数据主义由生命科学和信息科学这两大科学潮流汇流而成,它打破了生物和机器之间的隔阂;数据主义者把人文艺术、社会科学和自然科学统一于数据流之中,将它们视作不同的数据流模式——比如贝多芬的交响乐、股市泡沫与流感病毒是三种数据流模式,但是学者们可以使用同样的基本概念和工具来对其加以分析。在这样的认识论基础上,学者们能够使用共通的语言实现互相理解和沟通;也有研究者基于这一点将数据主义界定为“无条件相信数据”。


(二)算法支配世界


数据主义的核心是算法。正如赫拉利(Harari)所认为的,数据主义者相信“21世纪将是由算法主导的世纪”,因为算法已经可以说是这个世界上最重要的概念。算法指的是进行计算、解决问题以及做出决定的一整套有条理的步骤体系。它并不单指某次计算,而强调计算时所采用的方法。诺贝尔经济学奖得主丹尼尔·卡尼曼(Daniel Kahneman)等的著作中认为,“算法”较计算有更广泛的含义,它是在解决计算或者其他问题时(尤其是借助计算机方法)所需要遵循的步骤或规则。


赫拉利认为最终人类将赋予算法权力,以做出人生中最重要的决定。数据主义将整个世界(包括人的生命)都视为算法运算的结果。在这种观念里,不仅自然界是用算法语言写就的,宇宙本身就是一个巨大的计算系统;而且数据化也成为一种普遍的认知范式。生物也是算法,我们的感觉和情感,各是一套算法。数据主义本质上即计算主义。计算主义是人类以抽象思维把握世界的哲学纲领。从20世纪中期开始,伴随着生物学和计算机科学的发展,人们就尝试着以计算的抽象思维去认识和把握世界。抽象是人类以理性把握世界的重要方式。计算机的奠基人约翰·冯·诺伊曼(John Von Neumann)则提出“细胞自动机”理论,认为生命的本质也是计算的过程,此后诸多学者进一步发展了他的理论,用计算思维来认识和理解生命,将生命的过程还原为计算的过程。人工智能的成果更激发了一些认知科学家、人工智能专家和哲学家的乐观主义立场,他们认为从物理世界、生命过程直到人类心智都是算法可计算的,甚至整个宇宙也完全是由算法支配的。


(三)最高价值是“信息流”


曾经中立的科学理论——“数据主义”——正逐渐成为在判别是非的“宗教”,其最高价值是“信息流”。赫拉利的这一论断既像是声称,但却在其著作之中始终隐含着一种转述的口吻。他将数据主义的规范总结为:数据主义须要连接越来越多的媒介,须要产生和使用越来越多的信息,并让数据流最大化;同时须要把一切人和事物连接到系统,就连那些不想连入的异端也不能例外。也就是说,“不允许宇宙的任何部分与这个伟大的生命网络分开”。倘若我们阻碍数据的流通,我们就是在犯罪。


对数据主义来说,信息自由是最高的善。赫拉利认为,数据主义是人类自1789年以来第一个真正创造了新价值观的运动,这个新价值观就是信息自由——其赋予的对象不是人类,而是信息。这一价值观的核心观点是:信息自由流通的权利应该高于人类本身。数据主义的倡导者认为,如果我们想要创造一个更美好的世界,关键在于释放数据,给数据以自由。


数据主义认为人类拥有复杂的信息流模式,所以人类是高级动物;但是人类的情感智力也不过是算法——而且这一算法称不上高明。数据主义者相信,如果我们能够创造出一个数据处理系统,使得这一系统比人类吸收更多的数据,处理信息的算法效率也高于人类,那么这个系统就能胜过人。


通过数据计算所获得的结论被认为是公平可靠的,因为它们是通过正式程序和客观数据获得的,而不是个人决策或主观判断的结果。这推动数据主义成为企业创造价值的一种观念。对于企业而言,“数据最大化”与“信息创造价值”符合工具理性,也正在成为人们最底层的世界观和认识论;公众也对数据化自我、量化自我的社会新风尚趋之若鹜。现代技术提供了越来越多的以低成本收集数据的机会,用无处不在的传感器或互联网的信息处理取代基于个人经验和才能的判断。由于计算、量化的重要性,计量的原则、方法和技术对于确保在决策中正确有效地使用数据至关重要。这进一步导致了计量文化的缺乏,并促进了数据主义(即对数据的无条件信念)的传播。



二、数据主义思维下的传播图景


数据主义观念号称正在创造新的价值观,与之相关的大数据则驱动着传播学领域多方面的变革。数据主义强调其变革是通过媒介实现的——尽管这些媒介是广义上的——但是传播媒介在其中尤为重要。数据主义与正在兴起的数字新闻业的走向密切相关。新闻业的数字化过程先后经过了网络化、数据化与云端化的过程。在网络化的基础上,经过数据化和云端化,媒体建设“数据云”并进行“开源”,打开数据的接入和输出以实现数据的共享,并从共享中迅速增加数据的容量和链接。因此,数据也是数字新闻业的核心要素。


(一)结构性变革:等级结构变为网络结构


技术领域内最重要的变革总是发生在结构层面,正如马克思所说的风力磨坊带来了封建地主社会,蒸汽机磨坊带来了产业资本家社会一样。现今的结构性变化发生在互联网之中。互联网的出现催变着文化进程由等级架构转向网络结构,由中心化的管理机制转向中心化的网络机制。大数据具有“去中心化”特征,海量的数据通过大规模分享、合作、协作和互动,催生了一种新型信息网络结构。数据主义则把这种“去中心化”特征推向了极致。


在信息传播领域,这种“去中心化”趋向也伴随着“去专业性”。传统新闻业的生产以集中式为特征,是由少数专业人士所参与的,这样的模式遵循着较为明确的新闻业惯例与专业原则,同时有较为明确的把关者。数字时代的网络结构改变了这种惯例,也消解了一系列的专业性原则。


这种结构性变革还催生了一种新型的社会形态——平台社会(platform society)。平台社会的驱动力就是“数据化/数据主义”。范戴克在一篇批判数据主义的文章中指出:数据化(datafication)被视为一种普遍的意识形态。数据化驱动着平台社会的崛起,平台社会被称作一个“新兴社会”,在这个社会中,社交、经济和人际交往主要由全球在线平台生态系统引导,其生态系统由数据驱动并通过算法维系。数据是平台社会的驱动力。数据化、商品化与选择性组成了三个相互关联的平台社会机制,其中数据化是指网络平台能够将世界上许多以前从未被量化的事物转化为数据,这与数据主义理念相一致。平台社会在宏观上与地缘政治息息相关,在中观上就是平台的生态系统,而在微观上则与平台个体紧密联系。平台技术、经济模型和用户实践的相互衔接,为社交互动引入新机制,从而带来更大量、更复杂的数据。


数据主义的结构是建立在数据自由接入、自由流通与自由分享的前提上的。在看似完全自主的结构里,其实不可避免地隐藏着管理者、平台、数据贡献者与使用者等多元主体。因此,数据源自哪里、由谁掌控、由谁过滤、由谁使用,以及如何掌控、如何过滤、如何使用,对于数据时代的信息传播起着结构性的、决定性的影响。


(二)功能性变革:价值观的主体偏转


“数据化”正在被视作科学和社会新范式,已经发展成为公认的理解社会性和社会行为的新范式。在大量的相关研究中,数据化指的是将社会行为转化为在线量化数据,从而实现实时跟踪和预测分析。为了跟踪人类行为的信息,企业和政府机构深入挖掘通过社交媒体和通信平台收集的大量元数据(metadata),比如通过Facebook、Twitter、YouTube以及免费电子邮件服务Gmail等等收集以前无法收集的信息。借助这些数据,不同的社会机构得以通过电话联系揭示用户的人际关系,通过社交推文揭示用户情绪等。数据化作为访问、理解和监控人类行为的合法手段,正在成为一项主导原则。诚如范戴克所论述的那样,数据主义之所以能获得如此成功,是因为大量的人天真地或无意地将他们的个人信息信任给了企业平台。人们的关系、友谊、兴趣、品位、对话、信息搜索、情绪反应等等都轻易地被量化,但人们仍然相信处理他们元数据的机构,默认它们遵守公共责任代理人制定的规则。数据主义就不可避免地需要关照人们对这些机构的信任。


数据主义这一意识形态成了普遍信念,主张通过在线媒体技术对各种人类行为和社会性进行“客观量化”和潜在跟踪。这种意识形态迥异于传统的信息价值观。就传统的新闻传播而言,其价值观建基于新闻传播活动中人与新闻的关系。新闻价值是新闻对人的价值、是新闻对由人构成的社会的价值,归根结底是新闻对人作为主体的效用或意义。新闻的信息价值是新闻的第一价值。数据主义却否认了人的主体地位。数据主义奉为至善的“信息自由”,其赋予的对象不是人类,而是信息,是数据流形态的信息。由于数据主义认为信息自由流通才是最高的善,因此这种自由高于人类的种种权利,比如人类拥有并限制数据流通的权利,也就包括了人类的隐私权、自主权、个性,从而使得一切为数据流服务,而不是为人类服务。也就是说,数据主义的本体论和认识论与传统新闻研究之间存在着巨大的断裂。


数据主义的信息价值是什么?就现阶段社会形态催生的功能而言,数据化一切只是前提条件,商品化才是目的,这一目的实现的途径则是用户个体的选择。所谓数据流的价值,从人类社会而言,远不是宇宙的运转,而是人类的利益。在范戴克所指称的“平台社会”中,发挥核心作用的平台机制,是数据化、商品化和选择性三个机制共同作用。这一理念符契合数据主义的观点。数据化机制基于数据的获取和流通,使得一切内容转化为数据,这是这一过程的前提;商品化机制将线上线下的物品、活动、情感、想法等转化为可交易的商品,这是这一过程的目标;选择机制是通过个性化、趋势和声誉度,策划最相关主题、术语、参与者、对象、优惠、服务等,完成商品服务,这是这一过程的途径。从平台社会的视角而言,万物皆媒介,媒介皆数据,数据化组成了世界,算法技术则服务于这个世界,最终实现了商品化目标。



三、数据主义挑战新闻惯例和规范


数据主义不仅变革了前述社会观念、人类行动乃至社会形态等新闻业赖以生存的媒介生态,而且变革着新闻从生产到运营的全流程运作,直接挑战了传统新闻业的专业根基。


(一)新闻业的惯例正被打破


典型的变化已经在世界范围内显现,美国的数据驱动型企业如嗡嗡喂(BuzzFeed)和赫芬顿邮报(Huffington Post)的出现,以及美国五大科技公司谷歌、苹果、脸书、亚马逊和微软的崛起,动摇了新闻行业的经济、技术和社会基础。在线受众指标和算法过滤行为的激增,促进了新闻和广告的个性化,从根本上改变了新闻的制作、传播和经济运营方式。构成传统新闻行业的“内容—受众—广告”这个大三角配置,通过在线平台进行了拆分和重新组织、捆绑。因此,传统新闻机构曾经制定的专业实践和制度标准受到严重挑战。在线的新型角色重新配置生产与分发,诸如新闻独立性与可信度等核心公共价值观受到了挑战。


与此同时,“计算时代”的阶段性演进正在深刻影响着信息传播与新闻传播。在计算时代的第一阶段,新媒介模仿媒介的原初形态,它们以“桌面”“文件夹”“文件”的形式呈现,“文件”是基本单位,既层级分明又秩序井然,信息传播后进行批量处理即可;在第二阶段,数字时代引入了网络组织原则,结构是平的,“页面”成为基本单位,页面分布于连接起来的网络之中,集储存信息与传递知识于一体,人们需要及时处理信息(比如当日处理);如今人类正在进入计算的第三阶段,最基本的单位是“流”(flows)和“信息流”(streams),人们需要实时处理信息。计算的升级即伴随着数据量的不断扩容。人们订阅视频流,观看流媒体视频,收听流媒体音频,频繁刷社交媒体信息流,这意味着生产和分发的信息需要实时更新、不断增量。印刷报纸显然不如实时更新的新闻流更有价值,影视节目也需要以信息流的方式存储和开放来让人连接。因此,技术专家宣称:数据不会静止,如今万物都要流动成为数据流,而且信息要有清晰可用的“标签”,必须汇流入云端。随着数据量的丰富,信息价值也在可以大量自由复制中消解,这种情况下信息价值需要在原生性内容中得以突显,这些“比免费更好”的原生性内容,可以概括为八个方面:即时性、个性化、解释性、可靠性、获取权(而非拥有权)、实体化、可赞助以及可寻性。这些对新闻传播有非常重要的启示意义。


数据主义所依赖的精细计算不断升级,使得传播业的机制发生变革,传统的决策机制平层化、网络化。而从新闻产制的流程来看,数据主义至少变革了以下方面:信息源的数据化——包括信息追踪与人们的自我量化,信息混杂的无数信息汇聚云端,需要足够的数据运用能力;信息采集众混式——包括专业的与非专业的信息采集活动界限模糊,复杂的、海量的数据掌控于少数平台;新闻生产订制式、协同式、流动式(可以不断改进和更新);新闻分发个体化,通过精确的数据计算通过算法完成分发;用户的瞬时运用与评论、云端化存储与分享;以及新闻流通中的互动社交机器人化。


(二)数据主义挑战新闻传统规范


数字技术所引发的新闻业深刻变革呼唤着与之相适应的新闻规范,尤其是新型的新闻伦理。新闻传统规范中,最重要的新闻伦理通常强调真实、客观与责任等范畴。这些重要的规范正在受到数据主义的挑战。新闻业与数据的接触通常是在传统的客观性话语和对数据准确性的信念框架内进行的,数据记者发现很难“超越他们既定的认识论”。


1.真实性。新闻的真实性要求报道中每一个具体事实必须符合客观事实。但是数据主义思维下,真实性变得层叠化、复杂化。


(1)中介化真实。随着科技平台专注于在线交流,他们说服许多人将社交互动转移到网络平台。脸书将“加好友”和“喜欢”等社交活动转化为算法关系,人类行为、情绪和社会活动,由此被数据平台代理、由算法技术中介,这些也深刻地改变着新闻传播业。数据——而不是人的行为与社会事实——越来越多地占据了新闻报道的版位与时段。这些“事实代理”的中介化真实也改变了新闻的“真实性”。比如,谷歌、脸书和推特的许多数据常被当作人们实际行为或情绪的印记或表征,而这些平台仅被当作中立的促进者。推特号称可以将人们的情绪、想法和直觉数据化,因为该平台记录了“自发”的反应;用户会在不知不觉中留下痕迹,因此可以“被动地收集数据,无需付出太多努力,甚至被记录的人也没有意识到”。大规模推特(或微博)的信息计量,被数据分析者描述为公众对社会或自然事件做出的反应,被当作舆情数据。这些数据分析假设在线社交流量是自发的信息通过中性技术渠道流动。实际上,这些“中性的技术渠道”已经使出了浑身解数去催发“自发”信息,比如,推特通过标签、转推、算法和协议,通过它的商业模式才获得了那些流量。如今,这些技术平台成了新闻真实的代理机构。


(2)抽象式真实。新闻真实是要求具体事实,常常具有个别性、偶然性特征。某次实验室爆炸事故,其报道的真实性包含在对这个偶然爆炸事件的描述中。而在数据主义的视角下,真实性正在向抽象化真实变迁。数据是将无数的事相、情感、兴趣、特征进行量化后形成的,它们归属于不同的标签下,这些标签形成某一类属的信息流。针对某一爆炸事故的报道,可能就被结构化为,带着“爆炸”“实验室”“事故”“安全”“救援”等标签,汇入了信息流中,以结构化的形式被获取与使用。在这一过程之中,某些事实被重视,某些事实被忽略,那些具体的事实消隐在结构化的数据之中。这些抽象的真实,还会被还原成为碎片化真实,按数据计算的主题、方式而被突出各种面向,甚至是再造事实。这正是凯文·凯利曾说的,数十亿人类个体在网上揭示的事实,就可能是一种全新的事实。


(3)解读式真实。数据可以延伸新闻中单一事件与当前信息的时空意义,展示新闻事实的逻辑关系、发现常规新闻中难以体现的逻辑,数据的运用有助于新闻样态从封闭式转换为开放式,帮助用户获取和理解多元的信息。但是数据常常难以显示常人能看出的意义,需要被解读后才能揭示,由此新闻的真实其实是一种解读式真实。英国统计局曾公布教育机构数据,通过“学生是否在校吃免费午餐”(低收家庭的孩子可以享受免费午餐)为测量标准,从享受免费午餐的儿童数量不大这一事实,推导出英国基础教育机会平等的事实。但是英国《金融时报》使用收入剥夺影响儿童指数(IDACI,英国衡量16岁以下儿童生活在低收入家庭的比例的一种计算方法),根据孩子所居住的社区来衡量收入水平并将之与教育水平相关联,发现伦敦之外地区的贫穷孩子未享受到基础教育提高的益处。同样的数据,解读出来的意义却大相径庭,这是数据时代“真实”面临的困境。


(4)工具化真实。前的数据量正在指数级地增长。据报道,阿里、百度与腾讯等互联网巨头,数据量据说已经接近EB级(1EB=1024PB,1PB容量大约是2亿张照片或2亿首MP3音乐;换句话说,如果一个人不停地听这些音乐,可以听1900年)。2020年,全球电子设备存储的数据,达到35ZB(1ZB=1024EB)。在这样的背景下,人们获取的数据需要通过各种工具来完成。由于工具的普遍运用,人们正在趋向接受工具呈现的“真实”。


问题的严峻性在于,新技术工具释放了说谎、欺骗、偷窃、监视和恐吓的新方法。当前虚假信息大量产生的一个原因就是,媒体操纵技术的升级,这些升级改变了传统意义上的“真实信源”。例如,一些科技公司正在开发复杂的工具,凭此不仅可以剪辑音频和视频,还可以生产出完全模拟的录音与视频,这就是“深度伪造”的信息。


2.客观性。客观性是一套惯例,但同时也是一种信念。迈克尔·舒德森(Michael Schudson)不久前在一篇论文中再次论述了新闻客观性的升级:“记者的职责是阐释,这种主张升级为了客观性2.0。”“客观性2.0”正面承认了“记者要做出判断”这一点,即他们需要做出选择。他也批判了新闻业将民主弱化为了数字民主、“算数民主”(arithmetic democracy)。如今因为大数据的广泛运用,新闻的客观性连同数据的客观性一起,出现了一些复杂的情形。


(1)刻板型客观。谷歌作为世界范围内的“数据巨头”,受到学者们的广泛关注。谷歌搜索的数据,被当作“集体好奇心”(collective curiosities)的反映。谷歌的工作人员曾表示:“我们基于经验,即世界各地的用户提出的问题……正试图反映世界的集体意图(collective intentions)。”但是,有媒体报道了它自动完成搜索中出现的一些问题。在搜索框中,我们只输入一个字词、后面就会自动跟出一串可选项,让用户自动选择要搜索的整个词句,其要旨是提升用户的使用速度和满意度。


以谷歌为例。如果用户输入“Why Are Americans”(“为什么是美国人”),自动完成选项在该句后面呈现的自动选项包括:“Fat”“Stupid”以及“Patriotic”(“胖”“愚蠢”和“爱国”);将该句中的Americans替换为Chinese(中国人),自动补全的内容则包括“skinny”“rude”和“smart”(“瘦”“粗鲁”和“聪明”)。在一份声明中,谷歌发言人写道:“你看到的作为自动完成一部分的搜索查询反映了所有网络用户的搜索活动……谷歌试图准确反映互联网上内容的多样性,无论是好是坏。”


刻板印象化的数据,呈现出一种“刻板”的客观。这些数据有的基于人们的刻板成见,有的则可能形成于历史过程之中。2014年,英国《金融时报》知名记者吉莉恩·泰特(Gillian Tett)写过一篇文章,描述了芝加哥警察使用的预测性警务模型,该模型根据过去被捕的地点告诉警察去哪里寻找罪犯。文中认为该模型在降低谋杀率方面非常成功:第一年谋杀率下降了5%,然后继续下降,降到自1965年以来的最低水平。她的本意是讨论这件事,但是她对这个数据治理的正面态度,还激起了批评者的质问,认为她在做“种族歧视的广告”。批评者认为历史犯罪数据有种族歧视的刻板成见。


刻板印象化的数据,某种程度上反映的是人类在生成和使用数据时的政治化,亦即赋予了数据政治化。比如在谷歌搜索上,自动完成的搜索功能常常把许多政治家、运动员、明星的名字后面加上是否同性恋之类的内容,其本质上是那些支持同性恋者在寻求盟友同道,而反对同性恋者则试图以此来抹黑某人。对于“中立”的平台而言,如果人们怀疑其他人是否是同性恋,谷歌的解释是:“这是集体意图,我们遵守它。”


(2)过滤型客观。过于冗余的数据,需要相应的过滤机制来帮助我们选择所需信息。传统的信息把关人——如权威人士、教师、媒体、品牌、管理者等都依然发挥着帮助人们过滤信息的作用;但是,新技术背景下需要更可靠、更有效的过滤机制。算法技术便通过特征计算、个性分发等机制发挥了这样的过滤功能。谷歌这样的搜索引擎、各类社交平台、今日头条等信息聚合类平台便充分运用了算法机制进行过滤、提升用户满意度。


过滤机制中的“客观数据”,隐藏着大量的认知性。上述自动完成功能的搜索同样运用了过滤机制,自动完成反映了用户对速度的永不满足的需求——这项服务减少了书写错误,从而可以更快、更准确地获得传送的网页。它同时也带给了搜索平台更丰富的数据。在十几年前的一项实验中,谷歌发现即使结果传递速度快了几毫秒,人们对搜索的满意度也更高,其速度低于有意识的大脑实际感知的速度。从那时起,谷歌和微软在十来年里即花费了数十亿美元来让不耐烦的计算机用户恢复更快的搜索速度。用户的搜索越多,数据就越丰富,平台的算法就可能越准确。这也是谷歌这样的公司从头开始就认定自己不是搜索公司、而是智能公司的原因。


与此同时,这样的搜索数据也可能带来了一种虚假的客观。它甚至不是“集体好奇心”“集体意图”,而是一种人为的操纵。比如在短时间内有多项搜索同时、或持续出现,可能却是一些恶作剧者试图玩弄系统所致。2012年,德国前总统克里斯蒂安·武尔夫(Christian Wulff)的妻子贝蒂娜·武尔夫(Bettina Wulff)曾要求谷歌停止在她的名字后自动推荐“prostituierte”(德语:卖淫)等词,竟被谷歌拒绝,谷歌称这些词已经被单独输入了很多很多次。


过滤机制中还隐藏着数据的种种缺陷。比如英国BBC的社交机器人实验室2018年开发了一个测算寿命的互动项目“How long are you going to live?”,用户在上面输入年龄、国家、性别,即可获得平均寿命、余生健康、所在地区的排名、全球排名等数据。它在开头专门说明全球平均寿命在增长,2016年出生者比25年前出生者平均寿命长7年。但是当笔者输入不同年龄后,发现逻辑上发生了较多的矛盾,比如:20-24岁、30-34岁的中国人平均寿命将是78岁,25-29岁、50-54岁的中国人平均寿命将是79岁,55-59岁的中国人平均寿命是82岁,65-69岁的中国人平均寿命是84岁,等等。这项测试显示出的矛盾,可能基于数据的缺陷,也可能基于算法设计的缺陷。


3.主体性。如上关于价值观偏转的论述中,已经论及数据主义赋予了信息以主体地位,主体不是人类。实际上,即使不是过激到数据主义的价值观,数据驱动下依然出现主体性消隐与模糊的问题。


(1)代理化主体。当人类将数据贡献给平台之后,人类就经常处于被代理的地位。在搜索平台上,我们输入一两个词语而被自动化完成了许多问题的搜索,我们认为自己与计算机进行了一次私密的对话。在《纽约时报》的一篇报道中,数据分析公司Quid的联合创始人兼首席技术官肖恩·古尔利(Sean Gourley)曾表示,自动完成搜索就强调了人们认为他们与计算机进行的对话的私密性。事实上,这里的私密性并不是真的,我们与计算机之间的对话早已汇入了数据流之中;我们的问题与思想,也已经被其自动化跳出的搜索信息条所引导,平台已经成为我们的主导者。


(2)媒介化主体。当我们的数据汇入信息流的云端后,我们已然成了一个个数据点,成了数据化的自己——“云个体”;当我们接受经过算法计算专门向自己推送的个人化信息时,我们的身份实际上被标签化、被解析,而与众多同类获得协同式的推荐。当大数据报道新闻时,我们个体早已消隐,会呈现为某些数据,比如几年前中央电视台以“数说春节”报道春运时,我们可能就是从百度,或者手机通讯端生成的一个数据点,你从北京到广州、我从成都到上海的那一个个数据点,我们具有的是一种统计学意义的数据,而不是具体的人。


当信息自由成为最高的善,数据最大化成为最大的行动原则时,数据主义带来的不只是数据和算法作为芒福德(Mumford)所言的“巨型机器”对整个社会的重构和规训,还有人类以及个体主体性的根本丧失。一方面,在信息自由至高无上的观念下,人类却更可能失去自由,人类有被数据绑架、成为数据奴隶之虞。另一方面,数据主义将数据概念化为日常生活中的自然基础。一切皆数据,甚至将生命过程转换为基于计算机处理的数据输入流的过程,也被当作是一个自然的发展阶段。这使得人们在难以保护数据的同时又在可控范围内使用和推动数据自由流动。令人担忧的是,这可能会造成对个人自主权和人类自由潜在的负面影响。



四、讨论与小结:对数据主义的解构与利用


社会的整体数据化为新闻业提供了大量新的、有价值的信息来源。大数据分析正日益成为新闻调查的一部分,使得新闻业正在经历“量化转向”。大数据运用于新闻业,其实也就是近十年左右的时间。一项研究曾对2010年至2016年美国《纽约时报》和《华盛顿邮报》在线版发表的与大数据相关的文章中的图像进行了分析,发现2010年没有涉及大数据和包含同源图像的文章,在2011年和2012年略有增加,2013年报道量达到第一个高点(74篇文章与114幅图片)。《华盛顿邮报》继续以大致相同的强度报道大数据,2016年出现急剧下降;《纽约时报》在2014年和2015年的报道力度较小,2016年却出现了第二个高点(32篇文章、70张图片)。


大数据与数据主义警示我们要超越传统认知。大数据与数据主义均是新闻业和公众面临的一个新挑战,但是它们的来势汹汹,使得众多声音都在惊呼新闻业处于认知危机中,新闻业不得不重新定位其认知,必须超越对与错、真与假的二分法,打破并提升传统的惯例与规范性。这场危机的主要驱动因素是社会的数据化/数据主义与虚假信息,两者相合后更使得新闻业岌岌可危,新闻业在知识生产中的地位、尤其是评估来源和信息的方式受到质疑。与信息素养相关的基本新闻能力,是新闻业建立信任、权威和问责制的重要先决条件,如今这些显得与当下的数据主义思潮格格不入。有人警示:如果新闻机构和专业人士不更新他们的信息素养能力,如果公众不相信新闻业掌握这些能力的能力,新闻业将失去其社会意义,因为它失去了产生可信赖知识的能力。


数据不是知识。面对大数据这样的新生事物,公众尚处于初识状态,新闻业需要有将数据转化为知识的能力。数据如何转化为知识?凯文·凯利在2015年曾说,基于对信息结构的了解,他深信没有刻意的大量精力和智能活动的投入,知识不会自发地从数据中产生。自Web2.0以来,来自个人、组织、传感器的数据量大爆炸,新的新闻工作使统计能力、数据可靠性和有效性的问题变得更重要。运用数据图呈现有助于组织和简化新闻工作,记者用以呈现受众能理解的内容、使受众理解大数据的语义库。有能力的媒体运用简洁和多样化的视觉呈现大数据内容,使之与讨论的主题相呼应,而且还能在大数据相关的实际社会和技术方面发挥影响。


数据通过工具转化为知识、提升素养。数据主义者认为,数据主义将传统的学习金字塔彻底翻转:传统上,我们要把数据转化为信息,信息转化为知识,最后把知识转化为智能。而数据的流动量已经大到无法仅靠人力所能处理,人类仅凭大脑无法再将数据转化为信息,更不用说转化成知识或智能。因此,处理数据的工作交给能力远超人类大脑的电子算法。这也意味着,数据主义对人类知识和智能有所怀疑,而倾向于信任大数据和计算机算法。数据通过技术高超的工具转化为知识,比如开源软件或各类算法。对于个体而言,网络工具可以让用户更便捷地挖掘数据,更容易地创作与编辑。2018年3月,欧盟委员会发布了一份关于虚假信息的高级别专家组报告,建议的重要应对措施,包括促进媒体和信息素养以打击虚假信息,并帮助用户在数字媒体环境中导航;开发工具以授权用户和记者处理虚假信息,并促进对快速发展的信息技术的积极参与。


数据不是事实。新闻业要将潮涌般的数据与社会相关的现象和问题相关联,从事实中揭示数据的意义,但孤立的数据没有价值或意义。经合组织(OECD)也承认,就像水和石油等原材料一样,未被使用的数据没有任何价值:“数据没有内在价值;它们的价值取决于它们的使用环境。”要懂得揭示数据的意义,因为数据“存在于语境之中,从语境和旁观者的角度获得意义”。新闻业始终要坚守住最后的堡垒——以人为本的人文主义价值观,追求真实、客观、负责与服务精神的新闻专业性。


数据和技术不是中性的。不能无条件相信大数据,算法也并非控制一切。在经济领域,数据和技术常常被当作中性的——2013年的世界经济论坛就是这样宣称的。但自然发生的、客观的、原始数据并不存在。事实上,数据总是由某些人特意收集的,比如某些数据被认为是重要的、而其他数据则被视为无关紧要被忽略了。数据“技术”也不是中性的,因为它们已经是底层计算技术的深度应用,其性质取决于根据特定的设计如何应用数据处理技术来聚合数据。新闻业越来越多地参与到算法数据收集和处理中,这些数据收集和处理对观众来说是不可见的,并且经常涉及无数的第三方参与者。在对在线报纸和第三方公司之间自动数据传输的分析中证明过这一点,检视了脸书与在美国不断壮大的新闻和事实核查的五个新闻平台组织的合作。这些表明科技公司的参与者和算法之间的共同作用,以及他们与新闻媒体的记者之间存在某种相互依赖。我们现在所说的算法系统是人类开发、社会运用的,是技术性、社会性、物质性的算法,与数据主义者所说的一切皆算法——生物性算法,在概念上存在着显著区别。事实上,数据主义者在混淆算法的这些属性。


数据社会的去中心化是表层现象。数据带来了结构性的去中心化趋势,但是,在现实社会中,即使我们淹没在数据流形成的网络结构中,去中心化仍只是表层的,背后仍隐藏着复杂的权力关系。谁控制了平台,谁就掌握了数据;谁拥有了先进技术,谁就拥有更大的权力。如果一切都相信数据,人将会陷入“算法囚笼”之中。


最后,人文主义是人类所有价值观的底线和核心,人类要秉持价值理性与工具理性的协同平衡,才能维护人类社会的可持续性发展。数据主义则是秉持工具理性大于一切,它提出的“数据最大化”原则、“信息自由至善”的价值观,前提是数据平台自由存取我们产出的信息——人类被置于工具化、从属性的地位。数据主义者要连接越来越多的媒介,产生和使用越来越多的信息,让数据流量最大化;要把一切接到系统,就连不想连入的异端也不能例外,前提是全球数据处理系统变得全知全能,连接系统成了所有意义的来源——社会现实被抽象化。“数据最大化”与“信息自由至善”倡导了一种价值理性与工具理性的二元对立思维,它既是与人文主义的对立,也是现实虚无主义的产物。新闻传播业的宗旨是为人类服务,是植根于社会现实的公共事业,本质上与数据主义的这些理念是难以调和的。但是,未滑入数据主义这些理念的“数据化”,连同算法等新技术,作为工具和手段,则是助益新闻传播业提升和发展的有效机制。


作者简介   陈昌凤,清华大学新闻与传播学院教授、常务副院长,北京100084

中图分类号G206  文献标识码A

原文刊载于《新闻界》杂志2021年第11期,参考文献详见原文

排版:伊雪倩

往期精彩回顾

“民族”与“传播”:一种概念层面的辨析
数字新闻学研究主题发现及其演化分析:基于Webof Science文献的考察
数字新闻流通与数字新闻认识论
数字交往论(1):一种面向未来的传播学
可供性与认识论:数字新闻学的研究路径创新



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存