查看原文
其他

费利克·斯施塔尔德:《数字状况:算法排名》(2017)

陈荣钢译 译窟 2021-12-23

数字状况:算法排名

Digital Condition: Algorithm Rank

 

作者:费利克·斯施塔尔德(Felix Stalder,苏黎世大学艺术系)

译者:陈荣钢

 

引用:Stalder, F. (2017) The Digital Condition. New Jersey: Wiley, pp. 112-124, 193-196.

 

分类、排序、提取

 

算法排名是数字条件的构成要素。一方面,对(信息)世界的机械性“预分类”(pre-sorting)是管理数量庞大、非结构化数据的前提条件。另一方面,这些海量的数据以及存储和处理这些数据的计算中心为开发日益复杂的算法提供了物质前提。必需性和可能性互为补充。

 

Google的网页排名(PageRank)兴许是数字信息领域最知名的网页排名算法。多亏这些算法,我们可以在一个无序的信息世界中看清道路,并将越来越多的(信息)世界转移到无序中,而不至于产生“巴别图书馆”(Library of Babel)。

 

【译注】“巴别图书馆”来自1944年博尔赫斯创作的同名小说。

 

在这里,“非结构化”意味着无规定的秩序,比如不像为图书馆中的每一本书在书架上分配特定位置那样创造一个编目系统。相反,书籍散布在各个地方。它们动态地排列着,每一本书都是用搜索引擎搜出来的。因此,适合每个访客的书籍总已经在入口处准备着了(因为你已经搜出来了)。

 

不过,“书籍散落一地”的比喻有它的问题,因为“非结构性”(unstructuredness)并不简单地意味着没有任何结构,而是存在另一种类型的秩序,一种元结构(meta-structure),它是一种潜在的秩序,无数的具体安排可以临时产生(你搜它那一刻)。

 

这种元结构是由算法创造的。随后,这种元结构衍生出一种真正的秩序,例如,当用户滚动浏览由搜索引擎产生的点击列表时,他们就会和这种秩序相遇。只不过,用户没有看到组合搜索结果的复杂先决条件。截至2014年中旬,根据Google自己的数据显示,Google搜索引擎包含了超过1亿GB的数据。

 

最初(即20世纪90年代后半期),算法排名的实现方法如下——算法分析了万维网上的链接结构,首先注意到指向某个记录(document)的链接数量,其次评估链接到有关记录的网站的“相关性”(relevance)。反过来,一个网站的相关性是由指向它的链接数量决定的。从这两个变量中,搜索引擎注册的每个记录都被赋予一个值。

 

后者的作用是将用给定搜索词找到的记录作为一个分层列表(搜索结果),其中最高值的记录被列在第一位。这种算法非常成功,因为它将万维网的混乱局面减少到个人用户可以毫无困难去把控的地步——输入搜索词,在搜索结果中点选一个。

 

用户最终选择的简单性,加上算法预选的质量,很快就让Google超越了竞争对手。这个过程基于一个假设,即每一个链接都是相关性的标志,流行链接(频繁访问的链接)比不流行链接(不频繁访问的链接)更重要。

 

这种假设的优点是可以用纯粹的定量变量来解释,而且不需要对记录的内容或其存在的背景有任何直接的解释。

 

20世纪90年代中期,当页面算法的第一个版本被开发出来时,判断并评估内容相关性早已是一个旧问题了。自20世纪50年代以来,大学和研究机构的科学管理人员就一直面临着这个难题。在知识经济崛起的过程中,科学出版物的数量迅速增加。在这一时期,科学领域、观点和方法也成倍增加并变得多样化,因此,即使是专家也无法遍阅自己研究领域内的所有成果。

 

自那时起,科研人员开始计算一篇文章或一本书被引用的频率,并运用这一信息来评估某个作者或出版物的价值。他们的基本假设是(现在也是),只有重要的东西才会被引用,因此每一次引用和每一次参考都可以被视为对某一事物的相关性的间接投票。

 

对混乱的信息领域进行分类和对不断扩大的知识产业进行管理,这两种情况所面临的挑战都是为快速变化的领域制定动态秩序,并在不了解其内容的情况下对单个记录的重要性进行评估。对引文或链接的分析在纯粹定量的基础上运作,这么一来,大量的数据就可以快速结构化,相关的位置可以被确定。

 

这种方法的第二个优点在于,它不需要对不同领域的轮廓或它们之间的关系做任何假设。这使得无序或动态内容的组织成为可能。在这两种情况下,都使用了行动者本身的坐标系——科学文本中的引用,网站上的链接。

 

从分析“数据”(传统意义上的记录内容)到分析“元数据”(根据记录之间的关系进行描述)的转变,是能够对日益增长的信息量进行利用的前提条件。信息不再被理解为外部现实的表征,它的意义不是根据“信息”和“世界”之间的关系来评价的,“真”/“假”这样的定性标准不再适用。相反,信息领域被视为一个自我指涉的、封闭的世界,记录只根据它们在这个世界中的位置进行评估,虽然有“中心”/“边缘”这样的量化标准也不重要。

 

尽管Google的网页排名算法非常有效,并帮助这家公司迅速上升到市场领导地位,但在一开始的时候它相对简单,其运作模式至少是部分透明的。它遵循经典的算法统计模型。一个被许多链接提及的记录或网站被认为比一个被较少链接提及的记录或网站更重要。

 

该算法分析了给定的信息结构顺序,并确定了其中每个记录的位置,这在很大程度上是独立于搜索的背景而完成的,并没有对其做出任何假设。只要信息量不超过一定的规模,只要用户和他们的搜索在某种程度上是一致的,这种方法就能发挥相对良好的作用。

 

但在今天,情况不同了,人们需要预先分类的信息量在不断增加,用户不能在所有可能的情况下搜索一切。毕竟在Google成立之初,没有人想到智能手机的出现让人们走在路上快速查询今天餐厅的菜单。

 

算法云

 

为了对用户行为的这种变化作出反应,同时进一步推动这种用户行为,Google不断修改搜索算法。该算法已经变得越来越复杂,并吸收了更多的背景信息,这些信息影响着一个网站在网页排名中的价值,从而影响着搜索结果的顺序。

 

算法不再是一成不变之物,不再有不变的配方,而是转变为一个动态的过程,一个由多个相互作用的算法组成的不透明的云。根据一些估计,这些算法每年至少被完善五百至六百次。这些持续发展无处不在,以至于自2003年以来,每年都会出现几个新版本的算法云,并有自己的名字。

 

仅在2014年,Google就进行了13次大规模的更新,比以往任何时候都多。这些变化让算法更抽象,算法也考虑到了更多的变量,如搜索的时间和地点,以及一个人以前记录的行为,包括他或她在社会环境中的参与,乃至更多。

 

2005年,个性化(personalisation)和情景化(contextualisation)成为Google搜索算法的一部分。起初,人们可以选择是否使用这些功能。然而,自2009年以来,它们已经成为每个通过Google进行搜索的人必然使用的部分。

 

到2013年中期,搜索算法已经发展到包括至少200个变量。与此相关的是,该算法不再决定条记录在一个动态信息世界中的位置,而这个世界对每一个人来说都是外部存在的。相反,它现在为内容在一个动态的、单一的信息世界中分配一个等级,而这个信息世界是为每个用户量身定做的。对于每个人来说,一个完全不同的顺序被创造出来,而不仅仅是以前存在的顺序的提取(extract)。

 

世界不再被代表,而是为每个用户独特地生成并呈现出来的。Google并不是唯一走这条路的公司。由算法产生的秩序已经越来越倾向于为每个用户创造他或她自己的奇异世界。Facebook、约会服务和其他社会大众媒体一直在追求这种方法,甚至比Google更彻底。

 

从数据阴影到合成剖面图

 

这种生成世界的形式不仅需要关于外部世界(即每个人都共享的现实)的详细信息,还需要关于每个人与后者的关系的信息。

 

为此,网站将为每个用户建立配置文件(个人资料档案),并且档案涉及越广泛,对算法越有利。例如,由Google创建的简档在三个维度上标识用户:

 

  • “知识人”:通过搜索、浏览行为知道这个人认识的世界;

  • “物理人”: 在世界上的位置和移动(例如,通过智能手机、智能家居中的传感器或身体信号来追踪某人的位置);

  • “社会人”: 社会关系,通过追踪这个人在社会社交媒体上的活动来确定

 

这些不再代表传统意义上的“个体性”(individuality),也就是说不再代表在空间和时间上的统一身份。

 

一方面,档案由“次级个体元素”(sub-individual element)组成,识别你的是行为片段,只需评估特定搜索行为,而不需要了解你这个人的整体。另一方面,这些档案代表了“一群人”, 因此被建模的人可以同时在时间上占据不同的位置。

 

这种时间上的(temporal)区分使我们能够做出以下预测:一个已经做过X的人,将以Y的概率继续从事Z的活动。Amazon正是以这种方式组合图书推荐,因为该公司知道,在构成每个人档案的部分人群中,有一定比例的人已经做过这些事了(就算你还没有)。

 

正如数据挖掘公司Science Rockstars曾经在网站上尖锐地指出:“你的下一个活动是其他人的行为和你自己过去构成的一个函数。”

 

Google和其他依靠算法生成订单的供应商不断在将资源投入开发程序的渐进式“可知能力”,这让搜索引擎显得耗时而过时。算法的目标是尽量减少搜索行为中出现的“裂痕”,即每个人所经历的世界被不确定性困扰着,用搜索引擎“搜索”意味着你“不知道什么”,这是你和算法生成的世界之间的裂痕,而算法已经帮你安排(推荐)好了。

 

理想情况下,问题应该在被问到之前就得到答案。Google为消除这种裂痕的尝试就是Google Now,其口号是“在正确的时间提供正确的信息”。该程序最初是作为一个应用程序开发的,后来直接内嵌进了自家浏览器Chrome中,它试图在现有数据的基础上预测用户的下一步,并在搜索之前提供必要的信息,以使这些步骤有效进行下去。

 

因此,算法可以从用户的日历中获取信息,以弄清这个人下一步要去哪里。在实时交通数据的基础上,算法可以告知最佳交通方式。对于那些驾驶汽车的人来说,道路上的交通量将是该算法过程的一部分。这是通过分析其他司机的运动轨迹来确定的,这将使程序能够确定交通通畅与否。如果有足够的历史数据,算法还能调整行进方向,使交通拥堵不再发生。对于那些使用公共交通工具的人来说,Google Now评估了有关各种交通服务位置的实时数据。有了这些信息,它将提出最佳路线,并根据计算出的通行时间,在出行时间到了的时候发出提醒。

 

Google还在有限的、不明确的情况下进行实验和测试时,Facebook已经把这些算法日常化了。通过Facebook的EdgeRank算法,这一切完全在后台进行,不需要用户进行明确的互动,只需要三个变量——“用户亲和力”(用户之间的过往互动)、“内容权重”(所有用户与特定内容之间的互动率)和“流通率”(内容存在时间)。该算法从一个人的朋友状态更新中选择内容,显示在这个人自己的页面上。在一下节中,我将探讨算法在后台工作时拥有的这种操纵潜力。

 

变量与相关性

 

每一种复杂的算法都包含大量的变量,通常还包含更多的方法来建立它们之间的联系。即使它们是以技术或数学术语表达的,每一个变量和每一种关系,也包含了表达世界上特定位置的假设。不可能有纯粹的描述性变量,就像不可能有“原始数据”(raw data)这种东西。数据和变量都已经被加工过了。也就是说,它们产生于文化操纵,并在文化类别中形成。

 

每使用一次数据和算法,包含的假设就会被激活。如前所述,Google的页面排名算法的早期版本大体基于一个相当简单的假设,即经常被点击的内容比很少被点击的内容更相关、更重要,前者获得更高的算法权重。

 

用“流行度”的定量标准取代“相关性”的定性标准,不仅被证明是非常实用的,而且是极其重要的,因为搜索引擎不仅描述世界,而且还创造世界。搜索引擎放在榜首的东西不仅已经很受欢迎,而且会一直受欢迎下去。三分之一的用户会点击第一个搜索结果,大约95%的用户不会超过前10个搜索结果。因此即使是最早版本的Google页面排名算法也不代表现实,而是(共同)构成了它。

 

然而,受欢迎程度并不是算法积极塑造用户世界的唯一因素。搜索引擎只能对已经被纳入其索引的那部分信息进行分类、权重和供应。其他的东西都是不可见的。互联网的记录部分(“表面网络”)和未记录部分(“深网”)之间的关系很难确定,估计的比例在1:5和1:500之间。

 

有许多原因导致内容无法被搜索引擎访问。也许信息是以搜索引擎无法(完全)阅读的格式保存的,或者是被隐藏在付费网站专用的屏障后面。为了扩大可被算法利用的范围,搜索引擎的运营商提供了广泛的指导,说明提供者应如何设计他们的网站,以便搜索工具能以最佳方式找到它们。不一定要遵循这种指导,但考虑到搜索引擎在分类和过滤信息方面的核心作用,显然搜索引擎通过制定标准行使了很大的权力。

 

个人必须“自愿”服从这种权力,这是典型的网络权力,它不发出指令,而是构成前提条件。然而,优化自己在搜索引擎索引中的位置符合(几乎)每一个信息生产者的利益,因此他们有强烈的动机去接受有关的前提条件。此外,考虑到许多依靠算法生成的订单的供应商几乎是垄断性的(比如Amazon),如果自己的网站对其他人来说几乎不可见(或根本不可见),就必须付出高昂的代价。“自愿”一词开始有了相当腐朽的味道。

 

大体上,这是一种预设世界格式的微妙方式,以便它能被算法最佳地记录。搜索引擎的提供者通常以提供“更有效率”的服务和“更相关”的结果的名义为这种方法辩护。然而,“效率”与“相关性”等表面上的技术性和中立性术语,并不能掩盖定义变量的政治性质

 

什么是“高效”?与谁有关?这些问题都是由开发者和机构决定的,他们将算法视为自己的财产,不需要过多讨论。这些问题偶尔会引发公共辩论,前提是各自利益受到竞争对手冲击。比如,消费者搜索聚合器联盟FairSearch声称Google在搜索地址时偏爱自家的地图服务和竞价排名。

 

这件事产生了后续效果。2010年11月,欧盟委员会对Google发起了反垄断调查。2014年,欧盟委员会提出了一个解决方案,要求美国互联网巨头做出一些让步,但欧盟和消费者保护机构对该协议不满意。2015年4月,新任命的委员会重新启动了垄断程序,指责Google操纵搜索结果(尤其是比价结果),使其对自己有利而对用户不利。

 

2012年夏天,Google宣布“版权删除通知数量较多的网站”今后在搜索排名中会降低。Google引入了明确的政治和经济标准,以便根据某些强大的参与者(如电影制片厂)的标准影响用户能够浏览的内容。在这种情况下也可以说是搜索的个性化,只是情况的核心不是用户的自然人,而是版权持有人的法人。正是根据后者的利益和偏好,搜索被重新定位。

 

Amazon也采用了类似的策略。2014年,Amazon改变了它为人熟知的推荐算法,目的是减少展示那些敢于与公司进行价格谈判的出版商的书籍。

 

用算法记录来评估数据的必要性的做法一直都有。最初的网页排名算法逻辑早在2000年就被批评,说它基本上代表了大众媒体的商业逻辑,系统地将不太受欢迎的信息(尽管可能是相关的)置于不利地位,从而破坏了“网络作为包容性民主空间的实质性愿景”。此后对搜索算法的修改可能改变了这种趋势,但肯定没有削弱它。

 

最近上传和不断更新的内容在新算法下享有特权。搜索结果的选择现在取决于用户的位置,并考虑到了他或她的社交网络。它面向的是一个动态建模的群体的平均值。换句话说,Google的新算法倾向于那些在用户的社交网络中越来越受欢迎的内容。

 

数据行为主义

 

因此,像Google这样的算法重申并加强了一种在个人用户和社群组织层面上已经很明显的趋势——为了处理大量的、复杂的信息,人们把目光投向“内部”(inward),这倒不是说投向个人的内在存在(inner being)。“个人”(individual person)成为参考面,他/她有一个内部世界,有想法、梦想和愿望。对个人而言,意识、知觉和意图对他们来说并没有起到任何作用。

 

在这方面,哲学家安托瓦内特·鲁夫鲁瓦(Antoinette Rouvroy)提出了“数据行为主义”(data behaviorism)的概念。她拿这个词说明长期以来不被认可的行为心理学方法的逐渐回归,这种方法假定人类行为可以纯粹通过我们外在可观察和可测量的行为来解释、预测和控制。因此,这种方法也取消了直接询问人们或考虑他们的主观经验、想法和感受的必要性。人们被认为是不可靠的(今天也是如此),对自己的判断力很差,还经常在自我披露时撒谎。

 

从这个角度来看,即使是复杂的行为也有可能被分解为刺激和反应。这使得人们相信,观察他人活动的人总是比自己更了解自己,因为与被观察者不同,观察者的印象可能是不准确的,但观察者掌握着客观和完整的信息。即使在早期,这种方法也面临着批判。它被认为是机械的、还原主义的和专制的方法,因为它把观察的科学家置于主体之上。

 

在实践中,行为心理学很快就遇到了自己的局限性——收集人类行为的数据实在成本太高,太复杂了。然而,这种情况在最近几年发生了根本性的变化。现在有可能以经验的方式测量更多的活动、条件和背景。像Google或Amazon这样的算法构成了机械主义、还原主义和专制主义方法复兴的技术背景,它复活了失落已久的客观观点的梦想。

 

这种态度证实了那些拥有这种新兴观察者的看法——这些观察者除了Google和Facebook等科技公司,还包括政府情报部门。这就是他们希望实现的目标。这种“向内的转向”在于社群形态的空间是由互动参与者的活动总和构成的。然而,在这种情况下,社群的形成并不是有意识地在一个横向过程中创造和维持的,而是作为一种计算功能而合成构建的。

 

根据环境和需要,个人可以被分配到这个功能中,也可以从这个功能中移除。所有这些都是在用户的背后发生的,并符合与特定算法的开发者相关的目标和立场,无论是优化利润还是监视、创造社会规范、改善服务,还是其他什么。

 

以这种方式产生的结果被作为一种个性化的高效服务卖给用户,提供一种“准奇观”的产品。在巨大的信息干草堆中,我们曾经一直用搜索引擎寻找掉落的针。我们不完全知道这些内容的位置是如何被标记和配置的,也不清楚这些位置何时、如何被加强或被削弱。

 

在这个动态的、无法管理的复杂世界中,用户被一种激进的、短期的实用主义所引导。他们乐于让世界为他们预先分类,以改善他们在其中的活动。人们无法评估提供的信息是不是准确代表了这个世界。在迅速缩小的专业或日常知识领域之外,如果没有预先分类的机制,越来越难以获得对世界的初步了解。用户只能务实地评估搜索结果。也就是说,最重要的不是他们找到最好的解决方案或正确的答案,而是找到一个可用的、够用的答案。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存