顾肃 | 大数据与认知、思维和决策方式的变革
点击蓝字关注我们
大数据与认知、思维和决策方式的变革
作者简介
顾肃,1955年4月生。南京大学哲学系教授、博士生导师,复旦大学社会科学高等研究院研究员。美国杜克大学硕士, 南京大学哲学博士。任中国现代外国哲学学会、中华外国哲学史学会理事等职。曾任美国哈佛大学法学院人文学者,英国伦敦经济学院、澳洲墨尔本大学高级访问学者。主要研究领域为政治与法律哲学、政治学理论。学术成果包括《自由主义基本理念》《宗教与政治》等专著近10部,并以中外文发表论文二百余篇,《罗尔斯:生平与正义理论》等译著近10部。
摘要:大数据的发展促进了人类认知思维方式的变革,主要表现在追求全样本、接纳混乱性和多样性、追求相关关系的特征。大数据选择的不是随机样本,而是全体数据,从整体上把握对象,着重点不再是精确性,而是混杂性和多样性。大数据促进了从因果思维向相关性思维转变,不再立足于寻求比较简单的因果关系,而是把握复杂的相关性。大数据也正在促进社会各方决策和治理的革新。利用大数据分析技术,可以使政府及社会各方面的治理快速获得有价值的信息,及时发现问题,纠正运作中出现的偏差,提高社会决策和治理的能力。在了解社会舆情、安全预警、地理定位导航、个性化教育、有针对性的产品销售等方面,大数据均表现出明显的优势。
关键词:大数据; 认知; 思维方式;决策变革
近二十年来,随着电脑运算速度的大幅度提升,以及移动互联网的发展和普及,大数据已经渗透到工商业和人们工作、学习、生活的各个方面。大数据的引入和使用,以及复杂科学的发展和技术进步,促使人们的认知和思维方式从旧框架中解放出来,以新的视角认识世界。这种认知思维方式的改变也促成了决策方式的变革。这里主要讨论的是大数据促成的这些变革的表现方式和实现途径。
伴随大数据产生的数据密集型科学,被称为继实验科学、理论科学和计算科学之后的第四种科学研究模式。“这一研究模式的特点表现为不在意数据的杂乱,但强调数据的量;不要求数据精准,但看重其代表性;不刻意追求因果关系,但重视规律总结。这一模式不仅用于科学研究,更多的会用到各行各业,成为从复杂现象中透视本质的有用工具。”
大数据是建立在新技术、新媒体广泛发展的基础上的。数字媒体、网络媒体、触摸媒体等多种新媒体模式大大地突破了人们在认知对象、范围、手段和思维上的局限性,打破了传统认知的界限,促成了认知和思维方式的变革,使认知变成来源多样化、分工精细化、手段先进化的社会化互动、互助和自主的学习过程。大数据技术主要依靠对海量的各类数据进行统计和处理,因而主要通过更新统计认知来促进人们思维的革新。当然,当认知的来源和手段发生变革时,人的眼界和对世界万物及人间事务的认识自然会发生质的飞跃,在此基础上自然会促进人们决策思维的变革,大数据促进思维的成效并不只限于统计认知。本文拟对大数据对于传统认知、思维和决策方式的变革进行总结和探讨。
一、选择非随机样本,而是全体数据,整体把握对象
大数据大大扩展了人们认知的范围,使之更精细地了解其对象,也更新了统计数据和计算的方法。这对于所研究的对象具有重大的意义,无论是研究自然还是社会,能够得到其全体样本无遗漏地进行研究和掌握,是人类认知历史上从来没有达到的成就。
传统的信息处理方式带有很大的限制,研究者需要分析数据,但限于其收集和处理数据的手段和计算能力,只能采取抽样统计的方法。抽样分析成了长期以来自然科学和社会科学研究普遍使用的方法,通过抽取有限的样本、采集有限的数据来进行分析计算,得到最多的信息。这是一种经济实效的研究方法,可以从有限的样本中概括大量群体的特性。但是,这种研究方法也存在其固有的缺陷,这就是误差的问题。尽管可以用公式来计算出误差值,抽取出1500个样本,得出数据的误差值通常比较小,是在研究可以接受的范围以内。以此来概括全体的特性看起来八九不离十了。但是,抽样方法的客观性和正确率仍然要受实践的检验。以公民一人一票的选举前的民意测验为例,至今仍然不时发生抽样调查的结果与实际投票结果存在较大差别的情况,许多民调机构出现过预测错误。抽样的固有缺陷是细节考察,以偏概全的方法难免忽视细节上的差别。在信息处理能力有限的时代,这种缺陷是无法避免的。
为了克服抽样分析的缺陷,最好的方法是尽可能地扩大样本数,多多益善。大数据的研究最终实现样本=全体,达到最大的统计样本数,不再需要抽取有限的样本做代表。这样就可以克服抽样分析缺少细节和无法深入研究的缺陷,带来认知上的重要变革。受惠于先进的分析技术和数据处理能力,人们现在经常会放弃样本分析的研究路径,选择收集全面而完整的数据。这也为更准确地预测事件提供了良好的条件。例如,信用卡盗用是让银行损失大量钱财的犯罪行为,如何发现持卡者本人被他人盗用信用卡,是银行工作的重要任务。以前主要依靠被盗用者发现并举报自己的卡被他人冒用,然后银行经过调查核实以后,先赔偿被盗者,再配合警察和司法部门抓捕盗用信用卡的人。及时发现盗用信用卡的违法行为,是银行和持卡人都迫切需要解决的难题。大数据分析在这方面取得了可喜的进展。银行在分析每位持卡人的用卡记录后,对于突然出现的异常用款事件可以及时发出警报,迅速作出判断以后,可以迅速中止特定信用卡的转移支付,并向当事人及时发出警报。比如,一直在美国东部纽约市使用信用卡的某客户,在毫无迹象的情况下,突然在日本东京用此卡进行大额消费。银行的监控电脑可以根据大数据及时地进行异常消费情况分析,发出警报并采取止损措施。使用所有的数据,可以发现在有限数据情况下会被淹没掉的情形。“例如,信用卡诈骗是通过观察异常情况来识别的。只有掌握了所有的数据才能做到这一点。在这种情况下,异常值是最有用的信息,你可以把它与正常交易情况进行对比。这是一个大数据问题。而且,因为交易是及时的,所以你的数据分析也应该是及时的。” 用大数据统计发现金融诈骗案,已经成为普遍采用的预防和识别欺骗的方法。如专门从事跨境汇款的Xoom公司,分析一笔交易的所有相关数据,一旦发现“非常卡”从某州汇款的交易比平常多,系统就会自动报警。“单独来看,每笔交易都是合法的,但事实证明这是一个犯罪集团在试图诈骗。而发现异常的唯一方法就是,重新检查所有的数据,找出样本分析法错过的信息。”
在社会科学研究领域,大数据分析取代抽样分析,不再只依赖分析经验数据,取得了惊人的研究成果,带来了研究方法上的变革。常规的社会科学研究主要依赖样本分析、研究和问卷调查,由于样本的数量限制,得出的结果常存在偏见。这些偏见表现在设计实验和问卷时存在的偏差,例如,在调查被试者的政治态度时,所设计的问题往往会至少是部分地影响其答案。被试人员由于发觉自己作为被试的角色也会产生不同于通常的心理状态和行为。样本=全体的全样本分析,可以搜集到过去无法搜集的信息,直接研究处于日常状态下的研究对象,从而避免上述研究中出现的偏差和偏见。通过手机全记录、社交网络、个人主页、电商购物等多种信息来源,可以全方位地研究全体样本的社会交往、情感形态、消费心理、政治社会态度和心理状态的多种信息。
一个著名的例子是艾伯特-拉斯洛·巴拉巴西(Albert-László Barabási)项目组的一项研究人际互动的成果。他们调查了一家无线电运营商提供的四个月里所有的移动通讯记录,这家公司的用户涵盖了全美国五分之一的人口。这是第一次在全社会层面用接近样本=全体的数据资料展开的网络分析调查。如此大规模的调查得出了与以往小规模研究颇为不同的结论。这个课题组研究了从网络中移除链路(通话关系)对网络结构的影响,他们发现:如果把一个在社区内有很多关系的人(即强关系)移除通话关系,关系网会变得没有那么高效,但还不至于解体;但是,如果把一个与所有社区外的很多人有连接关系的人(弱关系)移除其通话关系,则整个关系网络会迅速破碎成很多小块。这个结果与通常预料的情况正相反,弱关系对于网络整体联系的影响竟然比强关系更大。这项研究揭示了用大数据调查得出了不同于传统调研方式的更加精确的结果,从而带来了认知和研究方式的更新和变革。对于社会科学研究,也提出了全新的视角和调研路径。
二、认知集中于混杂性和多样性,而非精确性
传统的小数据基础上的调查能力有限,统计分析主要定位在结构化的数据上,数据利用率低。这种局限性使得传统的处理目标主要是精确性,即集中于以精确的函数关系来模拟或接近自然和社会现象中的真实关系,在此基础上进行预测。比如研究经济活动,进行各种社会现象的分析,大多以这种方式进行,在有限的数据基础上建立起精确的模型,由此对未来的发展趋势提出预测。
小数据研究时,由于信息量有限,其主要任务是减少错误,保证质量,因而需要尽量保证记录下数据的精确性。科学家对于自然科学研究中的观察数据,要求尽量准确,究尽一切可能优化测量工具。采样时,信息的限制使得细微的错误会被放大,影响整体的结果,因而对精确性的要求就更高。测量就是认知,对于测量的完美要求被自然科学、工程学视为至宝。这些要求从数学和统计学扩展到商业和社会科学,商界更追求完美测量的理想。社会科学的取样和测验也是如此,虽然作为其研究对象的人具有更多的不确定性,但测验时也尽量要求精确,尤其是在发现规律时,尽量用数据的回归分析来接近理想的精确状态。
大数据兴起之后,面对不断出现的新情况,允许不精确不仅不是缺点,反而成了新的认知重点。由于容错的标准放宽了,掌握的数据日益增多,由此而做更多的事情,从而改变了认知的方向。
例如,测量一片苗圃的温度,如果只有一支温度计,对于此测量工具的精确度要求就很高,因为如果出现误差,就会使得所有的测量结果都不可靠。但是,如果每平方米放置一只温度计,则许多测量点测出的温度,其中可能会有错误,但大量的数据汇总起来,就可以提供更加精确的结果。大量数据所提供的价值不仅可以抵消错误数据的负面影响,还能提供传统的测量方法无法提供的额外的价值。这是为了扩大数据的规模而部分地牺牲了精确性,同时又得到了以前无法关注的细节。
另一方面,还可以提高测量的频度。比如,从每隔一分钟测量一次温度改为每秒测量一次,这样大大提高了频度,测量的读数可能出错,也可能把时间先后顺序搞混,或者在信息传输过程中出现延迟。尽管得到的信息不再那么精确,但得到的庞大数据量补偿了精确性上的损失,获得了小数据测量时没有的新价值。这就是以高频率牺牲了部分精确性,观察到了可能被忽视的变化。
计算机的运算速度随着芯片的不断更新而迅速提升,也促进了算法的飞速更新。在许多领域,算法带来的进步还超过了芯片的进步。但是,社会从大数据中所得到的,并不完全来自更快运行的芯片或更好的算法,而是更多的数据。例如,在人机象棋和围棋的博弈中,过去几十年里算法的变化不大,但计算机在棋类博弈中不断进步,最终战胜人脑,已经成为确定的事实。做到这一点的最重要的因素是系统中注入了更多的数据。计算机棋类程序的取胜大多出于对残局掌握得更好。当象棋盘上只剩下六枚或更少的棋子时,对于残局的全面分析就显得更加重要。所有可能的走法都被输入到了计算机程序的庞大数据表格当中,这里,样本=总体再次显现。计算机可以比较所有这些可能的走法,得出最优解,因而表现出天衣无缝,使得难免存在一些思维缺失的人脑最终处于劣势。这里,庞大的数据与高速运转的芯片和算法相结合,让计算机在棋类博弈中几乎战无不胜。
机器翻译是另一例子。用电脑翻译人工语言,已尝试了好几十年,经历了曲折的发展历程。最初,研究者把语法规则和双语词典相结合,以为这样就可以完成翻译的任务。但是,机器翻译的困难被看轻了,两种语言之间的翻译不只是一对一的单词转换加上语法规则就可以顺利实现的。单词有多种含义,它在句子中的准确意义必须联系其语境才能把握。翻译的选词是相当困难的任务,仅有规则是不够的,必须联系其语境下所表达的意思进行选择。20世纪80年代后期以后,IBM公司的研究人员对机器翻译提出新的思路,即不只输入计算机语言规则和词汇,还努力让计算机自己去估算一个词或词组适合于翻译到另一种语言的词和词组的可能性,在此基础上选定用词。
20世纪90年代IBM公司的Candide研究项目,把大约300万句的加拿大议会资料译成英语和法语并出版。其中的一个重要收获是通过输入巨量数据,将翻译的任务变成大量数据基础上处理的数学的问题,翻译质量大大提高了。此后,到21世纪,谷歌公司开始从事机器翻译的研究,目的是收集全世界的数据资源并让人人都可享用。这时候,互联网已经是一个庞大的全球数据资源,电脑利用这个大数据来接受翻译训练,吸收它可能找到的所有资料,从官方文件到书籍报纸等多种文字资料,多达数十亿页的文档,相当于1000亿句的英语。虽然输入的来源是多种资料,看似混乱,但庞大的数量提供了丰富的参考资源,实现了比较准确的翻译。目前谷歌已经可以实现从文字到语音翻译数十种语言,这是以庞大的数据库和高速运算能力为基础的。
高速运算能力使得翻译在短时间内比较和处理大量数据。但仅有运算能力是远远不够的,没有庞大的数据作为基础,自然语言的翻译就难以实现其准确性。谷歌公司的科学家阿龙·哈勒维(Alon Halevy)等人指出:“对于那些希望少数一般规则可以解释语言的人来说,值得注意的是,语言在天性上是复杂的,具有成百上千万的词汇。每天都产生新词,修改旧的用法。这意味着我们不能把自己想说的话简化为少数抽象的原始要素的自由组合。”自然语言的词汇搭配以大量的语言表达习惯为前提,而这些习惯是在社会语言交流的长期和大量的实践中形成的。由于包含大量共享的认知和文化的内容,语言的表述有可能是高度歧义的,但仍然能够得到正确的理解。同样的意义可以用不同的方式来表达,同样的表述有可能代表许多不同的意义。这正说明了自然语言中语境内容的重要性。谷歌的机器翻译训练即输入巨量的数据,包括有错误的数据。这样就为电脑提供了丰富的可资比较的语料库。机器翻译和语音识别系统都以处理自然语言的能力为基础,而这在大数据基础上才有可能实现。复杂性和混杂性的庞大数据实现了语言处理能力的质变。哈勒维等人强调:“我们已经解决了构造一个网络基础设施的社会学问题,这个基础设施鼓励亿万作者分享上万亿页的语言内容。我们解决了汇总并索引所有这些内容的技术任务。但是,我们还有待解决解释这些内容的科学任务,这主要是尽可能多地掌握这些内容的语境,以便正确地消除其歧义的任务。” 这项浩大工程的研究在机器翻译方面取得了显著的成功,它说明大数据基础上的简单算法比小数据基础上的复杂算法更加有效。
大数据改变了传统研究对于精确性的认知,要求重新审视精确性的优点和缺点。精确性是过去的模拟时代和信息缺乏时代有必要坚持的标准,由于信息取得的量有限,任何一个数据点所采集的结果都显得重要,所以需要确保数据的精确性。如今,在信息充裕的数字时代,能够掌握的数据库日益全面、丰富,可以获得巨量的甚至是全部的数据,因而不再担心某个数据点的精确性对总体分析结果的影响。这是哲学上对质量关系的一种新的认知。一般认为,一定量变的积累可以达到新的质变,而某方面的质变可以开始新的量变过程。过去传统认知因为信息数量上的缺陷,对于单个数据的质的要求甚高,如今大数据用庞大的全面的数据弥补个别数据点质上的缺陷,取得更全面的多样的认识。需要做的事情就是接受并受益于多样的数据,而不是以高昂的代价消除所有不确定性。大数据不但让研究者不再期待精确性,而且也让他们了解到无法实现完美无缺的精确性。
三、从因果思维向相关性思维转变
大数据也让研究者对于因果关系的认知发生了改变,从相关关系来重新认识因果关系。全样本系统、混乱性数据的非定域性以及与数据采集和分析过程的不可分离,突显了相关关系的重要性,它是大数据时代统计因果关系的体现,也是在技术层面据以预测事物演化发展的前提。
事物间的相关关系是科学研究的主要任务,这在小数据时代也很有用,但是,大数据的研究更突出了相关关系的意义和重要性。通过应用相关关系,可以更快捷、方便和清晰地分析事物。这种关系的实质是量化两个数据之间的数理关系,通过大数据的统计分析,可以更好地掌握现象间的相互关联。找到一个现象的关联物,相关关系可以帮助研究者掌握现时的状况并且预测未来。
在小数据时代,分析相关关系的主要过程是,提出以一定的理论为前提的假设,然后收集有关数据进行相关性分析。比如根据有限的数据进行回归分析,得出可能的函数关系,肯定变量间的相关性;或者确定关联物是否合适,如果不合适,则再进行调整;或者再核查数据,纠正数据收集中的错误;或者提出新的假设,再进行数据收集和相关性分析。假设所依据的理论通常是一些既成的观点和陈述,断言事物的性质和相互关系,特别是因果关系。由于所掌握的数据有限,对于这些关系的验证也有相当的局限性,通常从有限数据得出绝对的因果关系的结论。如此反复假设、验证的过程是科学研究的常态,但也可能因为所掌握的数据的限制和研究者的偏见而经常出错。
大数据的研究则使情况有所改变。计算机具有强大的计算能力,其收集到的巨量数据使得传统的关联物监测方法不再那么重要,造成假设分析法的限制条件消除了,研究不再依赖提出假设和用有限数据验证的方式。复杂的机器分析可以分辨出最合适的相关关系,不再依赖建立以因果关系为基础的假设,例如,不再需要了解航空公司是如何定价的,来光顾超市的顾客的烹饪偏好是什么。而是通过相关分析,了解什么时候机票会大涨价,哪些食物是台风期间待在家里不出门的人最想吃的。大数据分析可以得出大量的相关关系,为各种商业和公共决策提供准确的信息。大数据的相关关系分析得到的资讯更迅速、更准确,不容易受成见和固有思维的影响。
人们在思考事物间的联系时,习惯于依直觉迅速确定事物之间的因果关系。相当一些因果关系是臆想的,并非真实存在,但由于误解、习惯、信仰、以讹传讹而常常被设想为因果联系。比如人受凉导致感冒,吃发凉的食品容易泻肚。而真实的根本原因是导致感冒和腹泻的病毒,受凉只是间接的诱导因素。人们习惯于以因果关系来思考事物间的关系,但在小数据时代,对于因果关系的验证本身相当困难。而人们在有限的数据下仍然坚持肯定各种因果关系的存在。例如,被狂犬咬过的人并非百分之百地患上狂犬病,大概得病的概率是七分之一。注射狂犬疫苗可以防止病患 ,但不注射疫苗也有七分之六的概率不得狂犬病,这样,注射疫苗与避免得病之间就不是百分之百的因果联系。当然,为了避免得病,所有被狂犬咬的人都得注射疫苗,这是从预防的角度来思考问题,但无法证明百分之百的绝对因果关系。概率相关即需要经过大量数据来取得的数理相关的关系,对此作确定的因果解释本身是存在问题的。如果事物A与事物B相关的概率只有百分之一,那由此而说A是B的原因,就相当牵强。能够确定这百分之一的相关性,就是科学研究的重要成果。
大数据以掌握事物间的相关关系为重点,改变了传统的以因果关系为主要任务的研究思路。证明相关关系的实验耗资和费时都较少,它主要依靠统计学的方法、数学分析和数字工具,得出可靠的关系结果。相关关系主要不追究“为什么”,而是“是什么”。这主要包括两方面的含义。一方面是相关关系本身非常有用,确定相关关系,即可提供清晰的新的视角,是研究本身的主要任务和意义。相比之下,追究简单的因果关系就显得多余。比如,美国一家为所有人提供数据挖掘竞赛平台的Kaggle公司举办了关于二手车的质量竞赛。二手车经销商把数据提供给相关的统计学家。他们用这些数据建立的一个算法系统来预测哪些准二手车有可能出现质量问题,结果是橙色的车出质量问题的可能性只是其他颜色车的一半。这是一个微妙的问题,车的外表颜色与其质量并不存在内在的相关性,但为什么是橙色的二手车质量高呢?寻求因果关系的习惯会让人立即思考找出其中的原因。可能此颜色的车制造质量更精良?这按理来说是没有根据的,因为车子制造的内里是一样的,只是外表喷漆颜色上的差别并不会导致内在质量上的差异。或者是车主更爱惜车?橙色车比较显眼,出车祸的概率较小?这些都不是可以令人信服的原因。在这种情况下,知道车子的统计概率“是什么”就足够了,没有必要再纠缠于到底“为什么”导致了这种概率。人们也不能由此得出结论说,为了提高二手车的质量,应该把所有的车都漆成橙色。在这种情况下,通过大数据确定相关关系,是成本低、见效快和可以得出清晰结论的研究成果,其本身为预测提供了依据。
另一方面的意义是可以强化对因果关系的认识。因果关系是一种特殊的相关关系,即具有决定意义的相关关系。相关关系的范围大于因果关系。大数据推动相关关系的研究,同时也在人们仍然指望以因果关系来说明事物间的联系时,指导人们做深入的研究。例如,经济学和政治学家们长期以来大多认为,人的收入水平与幸福感是成正比的。中国古代哲人也有“衣食足而知礼节,仓禀实而知荣辱”的说法。现代的经验分析也在数据图表上得出,这两者间呈现一种线性关系,这似乎可以肯定两者间的因果联系。但是,大数据的相关分析发现,两者间存在更复杂的动态关系,即对于收入水平在1万美元以下的人来说,幸福感会随着收入的增加而增大,但对于收入水平在1万美元以上的人,幸福感不会随着收入的提高而增长。这就为关于收入与幸福感的因果关系提供了更深入的认识,也就是并非总是线性的因果关系。这也为公共政策的改革提供了重要的参考指标,即不应该只是以经济收入的提高为主要任务。对于收入水平较低的人来说,应该把重点放在提高其收入上,对于收入较高的人,则应该提供更多满足其需要的多种激励因素,包括精神、荣誉和自我实现方面的因素。
大数据为社会科学的研究提供了新的工具和进路,也改变和深化了人们有关因果关系的认识。大数据不是取消因果关系的理论。“大数据的相关关系,进一步展开了因果概念的重新刻画:因果关系是对因素相互作用过程与其效应之间关联的描述;而相关关系所描述的则是因果派生关系。作为因果派生关系,相关关系根植于因果性;作为未进入相互作用过程凝固为因果关系的因素关系,相关关系提供了由因素创构结果的广阔空间,这正是数据物化的因果性根据;而作为因素分析,相关定量分析的因果派生依据则构成大数据分析的因果基础。”大数据也不是取消一般的社会理论,所有的数据分析都需要一定的理论前提和假设,在此基础上通过数据的整理分析来验证理论。但是,大数据提供了更加全面的新颖的认识工具,也修正了对因果关系的传统认知,在数据有把握理解的范围内,通过相关关系的分析部分地取代或改变传统的因果关系的认识。
比较而言,以模糊近似的因果关系为重点的传统的进路立足于相关和回归分析的思维方式,在大数据时代,数据的数量庞大,数据结构更加复杂多样,比较难以建立起准确的函数关系,因而更重视相关关系的研究。与此相应,数据认知的思维也发生了重要的变化,相关关系的研究立足于事物、现象和变量之间的相互关联和变化,进行彼此相互联系的关联预测,而不再着重从事特殊的因果关系的归纳和总结。
四、促进社会各方决策和有效治理的革新
大数据正在促进社会各个方面决策和治理的革新。利用大数据分析技术,可以使政府及社会各方面的治理快速获得有价值的信息,及时发现治理中存在的薄弱环节、顽强痼疾和症结,纠正运作中出现的偏差,提高公共决策和社会治理的能力。社会各方决策和治理效率的提升,是现代社会的一项重要的任务,大数据在这方面可以发挥自身的优势。比如,在社会监管、掌握舆论、安全预警、地理定位导航、个性化教育、精准医疗等方面,尤其是在准确地、有针对性地进行产品销售和高效的物流规划等商业管理方面,均表现出明显的强项。所有这些大数据的信息把握为更好地预测和掌握社会事件的发生,进行有效的社会治理提供了坚实的基础,从而进一步促进了决策和治理思维的变革。下面简要列举几个方面的突出成就。
1.政府机关了解舆情和大众心理,安全预警。政府机关可以通过大数据分析社会的舆情,了解大众的心理倾向,为可能存在的社会安全问题提供预警。这是公共政治决策上的一项重要的进展。互联网的大发展,各种网站和社交群体十分发达,为人际和社群互动提供了前所未有的机会,也为公共管理机关了解舆情民意提供了重要的手段。在这些方面,大数据分析可以做许多工作。比如,民众的政治态度、对重要社会事件的看法、对于各级政府的执政和治理的真实看法、对关键的立法工作的态度、对法治状况的认识,都可以通过数据分析得知真实的民情。在出现重要的不满的苗头,有可能造成群体事件时,及时掌握动向,提出并采取因应措施。当然,在了解这些舆情民意时,需要遵守法治原则,防止侵犯公民隐私权利。与社会科学密切相关的舆情分析、社会心理分析、情感调查分析等研究,借助于大数据分析可以取得更多更新的收获。
政府也可以提供一些重要的服务,通过分析其强大的数据库并告知市民,让他们更好地了解自己。这有助于政府本身改进其工作和公共服务。例如国税局拥有巨量的信息,对于个人、企业、社团的收入、支出,都有详细的信息。分析这些信息,可以得出许多有益的启示。比如,可以告知小企业广告开支是否过多,告知民众一般与其收入水平相当的纳税人会做更多的慈善捐助,或者在个人退休账户存入更多的钱。税务局可以相当准确地估计小企业倒闭的概率,甚至可以估计个人婚姻失败的概率。政府部门拥有的相关信息经过大数据分析为公众提供有益的服务,这是公共治理的新课题,为改进公共服务提供了新的思路。
2.利用全球定位系统与导航进行最优规划决策。全球定位系统(GPS)技术的成功使得用大数据来进行地理定位成为可能。构成该系统的24颗人造卫星于1978年首度发射成功,地面上的接收器通过计算卫星发射信号时间上的差异对自身位置进行三角定位。此后数十年,该项定位技术不断改进,测量精确度可以达到米,与大规模量产生产出的低价芯片相结合,使得精确定位系统可以很方便地安装在轮船、汽车、火车、飞机甚至个人身上,准确地确定自己的位置,为导航技术的普及提供了十分便捷的工具,同时也收集到了巨量的个体定位数据。全球定位系统与大数据相结合,应用十分广泛。例如,地理信息位置的数据化改变了保险的观念。通过在车上安装无线传感器,大量记录汽车经过的地点、时间和行驶路线的详细信息,保险公司可以更好地确定驾驶人的保险费率,从而更合理地为保险定价。英国的车主可以根据自己实际驾驶的时间和地点来购买车险,而不是像习惯那样只根据年龄、性别和经历来定。也就是说,以个性化的方式而不是根据群体的平均风险来确定保险政策,这是大数据才能做到的改变。汽车定位信息也改变了相关的固定资产投资的方式,比如可以让使用相关资源的驾驶人和其他人分担公路等基础设施的一部分投资。大数据的精确信息为相关人员投入公共工程和基础设施的建设和维护提供了可行的方案。
大数据基础上的全球定位系统已经得到了广泛的推广运用。以此为基础的应用程序被广泛地适用于行驶的导航,在巨量信息的基础上,规划最优行驶路线,并且在行驶当中,根据路况及时调整路线,规避拥堵道路,实现最佳的行车效果。美国联合包裹公司(UPS)在利用全球定位系统和大数据规划其服务上做了大量的工作。该公司以多种方式利用地理定位数据。公司在给运送货物的车辆装上传感器、无线适配器和GPS,以此来更好地监督员工和优化行车路线。规划路线是建立在过去巨量行车经验基础上的,在考虑节省总路程的同时,还出于安全、少油耗和时耗的理由设计了尽量少作左转的行车路线。例如,近年被称为ORION系统的规划,运用算法、地理信息系统和智能地图有效地为每位驾驶员规划整天的服务。这样规划的效果,每年可少跑上亿英里的路程,节省大量燃料,少排放约10万吨的二氧化碳。UPS公司的过程管理总监杰克·列维斯(Jack Levis)肯定这种系统工作的有效性,并确信其在预测上起的积极作用,在用户意识到问题之前及时作出预测并解决问题。该系统正在优化最后一英里的交付,帮助人决定由哪个车辆和哪位驾驶员来运送每个包裹,作出最优化的选择。除了静态的决定以外,它还进行动态优化,以便该系统在白天进行更新。它可能检测到驾驶员提前或落后于原定的时间表,然后根据情况重新优化路线。其决定细到包裹应放到哪辆拖车,哪位司机拉拖车,在哪里排序。在建筑物内部,对包裹进行分类,系统会分析需要多少人,包装应在哪里分类,车辆应停在哪里,应该如何清洗。系统为5万名驾驶员提供位置智能,在众多城市中逐一进行优化。该公司所拥有的航空公司的运作也着手优化。如此精细的选择都是在大数据基础上进行的优化,为的是使整个系统的运作达到最优效率。
3.个性化教育。掌握个性化的信息是大数据认知和思维的特点。依靠巨量的信息收集和整理能力,有关人士做了大量针对个人特点的决策。比如,通过大数据来促进个性化教育,取得了重要的进展。传统的教育模式受19世纪工业革命的影响,实施所谓的“大规模批量生产”,像生产标准件一样统一规范化地培养学生。整齐划一的管理方式在很大程度上阻碍了学生的个性化发展。从学生个体的全面发展,到教育系统中各个元素的教育公平,都受到一定程度的损害,妨碍学生好奇心和创造性的发挥。大数据通过广泛而系统地收集学生各种各样的学习数据,对其进行分析梳理,然后有针对性地、个性化地施教,从而更有效地促进教学,促进教育决策的合理性。
4.细分客户,进行针对性的决策营销。大数据所掌握的个性化信息在工商业的各种决策中发挥日益重要的作用。可以举出很多的案例。例如在人力资源方面,挑选合适的职位应聘者对于企事业单位都是十分重要的工作。许多公司用数据分析来挑选应聘者,仔细划分各类对象,有针对性地进行选择。雇主都希望预测哪些应聘者能够更好地投入到入职后的工作中。传统的方式主要是做应聘者智商的能力倾向测试,现代的测试则需要把握更多的指标,如沃尔玛公司的聘用人员测试的指标目的是评估应聘者的三个潜在的性格特征:道德心、亲和力和外向性。大量的数据分析显示,这三方面的性格特征可以比能力测试更好地预测工作者的生产率,尤其是营业额。经过大数据统计后得出的结论,对于录用人员保持就业者在单位工作的稳定性、积极性和良好业绩,都很有意义。
消费者也可以利用大数据更好地了解商品和服务的价格、质量、特性等详细信息。例如,航空公司的机票价格高低,与预订机票的时间存在某种关联。以前主要是卖方根据其竞争和销售策略制订价格。现在,也有消费者通过数据分析来确定最佳购票时间。华盛顿大学计算机教授奥仁·艾兹奥尼(Oren Etzioni)为此创建了机票价格预测网站Farecast.com,向消费者提供丰富的机票走向和趋势的信息,它甚至提供了机票价格即时的向上或向下的箭头,标志实时的机票涨跌情况。其所依据的是巨量的价格信息,分析绝大多数航空公司的所有航线的长期价格变动情况。所使用的115个变量每天都更新,以便对整个市场提出新的预测。它不仅关注历史价格变动情况,还关心可能影响机票供给或需求的众多变量,比如汽油价格或天气状况等,甚至包括超级联赛在哪里举行的信息。如此大数据分析的成果,使得消费者可以获得几乎与卖方掌握的差不多的信息。如今,大数据分析已经用于像房地产、汽车销售、交通状况等多方面的信息,为顾客提供丰富的服务。
5.随机试验与社会改造项目。社会科学研究需要对人群的各种行为进行调查和研究,以得出有益的结论。通常认为,社会科学依靠中立的观察,对社会现象进行不干预的分类、统计、分析和总结。至于社会可否像自然科学那样进行干预的纯粹实验,对此的答案存有分歧,不少人持保留的看法。大数据分析重视随机实验,对大量的人群进行干预性的随机实验,然后得出有启发意义的研究结论。传统的研究通过挖掘数据发现事物间的联系,包括因果联系。但是,仅仅考察历史的数据,往往并不能有效地找到这些联系。因而需实施干预性实验,控制若干方面的因素,以找出主要因素间的纯粹的关系。举例来说,如果想弄清楚化学疗法相较于放射性疗法是否更有效,就必须控制其他所有因素,比如 ,病人的特点、环境等可能影响结果的所有因素。然而,大数据随机研究则不需要控制这些因素,即不需要控制住病人是否吸烟、是否得过中风等,而是设想对大量数据随机划分以后,每一个治疗组的吸烟病人的比重都相同。这里的关键是样本数量足够大,抛币时正面朝上组和反面朝上组的数量在统计上是相等的。但是,如果对正面朝上组进行干预,就可以衡量干预的净效果。也就是说,划分出来的组不是控制了那些可能影响的因素而得出的,而是直接对随机划分出来的包含巨量个体的组进行单一因素的干预,然后找出重要的联系。大数据分析的因果关系的原理是:随机划分数据,使这两个组在其他所有方面都相同,然后即可确信这两组结果的任意变化是由不同的干预引起的。
在社会学和政治学等社会科学的研究中,通过随机实验进行大数据分析,可以得出许多有益的结论。如今,对社会政策进行随机试验,已经成为一个全球现象。大量的规制试验都在进行当中,取得了相当的收获。例如,墨西哥总统塞迪罗(Ernesto Zedillo)在任上推行的“教育、健康和营养计划”。该计划向穷人有条件转移支付现金,即任何人要得到这笔现金,必须让自己的孩子上学,怀孕时必须去做孕期保健,参加营养监测。其目的是打破贫困的代际转移,避免贫困的恶性循环。自1997年开始,塞迪罗在506个镇的24000个家庭中实行此随机试验。在试验的镇里,贫困家庭的孩子如果定期做健康检查,并且在85%的时间里都去上学的话,他们的母亲可以得到三年的现金支付营养品。现金付款的数目大约是其子女在竞争性市场上能够挣到的工资的2/3。通过随机实验进行比较,该计划所实施的镇的教育和健康状况几乎立即有了显著的改善。实行该计划的男孩子的入学率比未实行此计划的高出10%,女孩则高出20%。孩子上学时间增加了半年,被拒收的也较少。孩子的健康状况改善得更加明显。塞迪罗的继任者用一个新的名称命名与此类似的计划,继续了这方面的援助,使之规模更大,涉及更多的贫困家庭,并且扩大到了城市,增加了200万个家庭,该计划取得了可喜的成果。像此类随机试验看起来并不复杂,但对政府的政策制定过程发生了根本性的改变,产生了深远的影响。墨西哥的国会为此通过一项法律,规定现在所有的社会计划都必须进行评估,并列入预算。评估某项公共政策是否有效,需要有事实依据,而通过随机实验进行大数据分析,是一种相当可靠的检验方法。
五、结语
以上我们总结了大数据如何促进人们认知和思维方式的变革,从而促进社会决策方式的变革。大数据分析着重追求全样本、接纳混乱性和多样性、关注相关关系,这些特性相互关联,相辅相成,展现了大数据技术发展的优势,对于社会科学的研究也提供了新的思路和进路,带来了思维方式的变革。这些新颖的分析方法和研究成果,可以为政府及社会各方面的治理提供全面及时的、有价值的信息,提高社会各方决策和公共治理的能力。在地理定位导航、个性化教育、社会监管、掌握舆论、安全预警、随机实验、精准医疗、针对性营销和最优物流规划等方面所取得的成果,只是大数据技术在促进决策和治理上有限的内容,实际的发展状况和进步方兴未艾,正在多方面取得新颖的进展。当然,大数据作为一种认知和决策工具,也有其两面性。过分依赖数据并不能保证不出差错,人的经验在分析数据时还是不可少的。权值和初值的设定、参数的调整,有赖于经验的积累。大数据也有可能被机构恶意利用,如黑客侵入获得个人的隐私资料,干涉公民的自由权利。大数据的这些新进展也向社会的民主治理提出了新的挑战,主要是对于这种全方位的社会掌控技能存在一个把握公民权利的界限问题。本来,大数据为社会信息的把握提供了强势的手段,但公共权力如果利用这些信息强制干预公民的自由选择,就需要进行反思和总结,在公民与公权力之间保持合法的权力界限,这就需要民主与法治的制度制约。
原文刊发于《厦门大学学报(哲学社会科学版)》2021年第2期《大数据与社会科学发展研究》专栏,第34-43页。因篇幅问题,注释删略。
相关文章:
欢迎关注“厦大哲社版学报”微信公众号
投稿平台
https://xdxbs.xmu.edu.cn/