专访谢宇教授(上):大数据的重要价值不是“大”
导言
“严肃的人口学八卦”初衷是想为教学准备一些素材,并用轻松、活泼的方式,结合社会热点问题传播社会学、人口学的一些知识。本来是想小范围做这个事情,在我们推出几篇文章后,大家非常喜欢。我们在这个过程中也有很多收获和体会,也在不断思考,社会科学研究者应该如何面对公众,如何有效传播科学的知识?
本期八卦组有幸邀请到普林斯顿大学谢宇教授跟我们探讨三个问题:
1.现在似乎已经进入了大数据时代,大家很看重大数据,每个人都在谈论大数据,那么,我们社科研究应该怎么做或怎么看待大数据问题,大数据和传统研究数据的关系是什么?
2.关于在新媒体时代,科学工作者应该如何面对大众的问题。对于公众号这种形式,可能很多人认为我们是不务正业,那么科学工作者是否应该参与到对大众的科普中?
3.关于人口学的发展问题,中国社会处在快速转型时期,中国的人口学发展也面临很多挑战,未来人口学的主要研究方向和重要研究议题有哪些?
整个访谈较长,我们分上、中、下三期推出。
本期推出第一个话题:大数据是什么?
谢宇
美国普林斯顿大学社会学终身教授和当代中国研究中心主任
美国科学院院士
美国人文与科学院院士
Q:人人都在谈论大数据,到底何为大数据?
你这个问题提得很好。我觉得社会上对大数据有很多误解,也有一些盲目的追求。总体来讲,中国民众对数据的需求很大,但真正懂数据、认识数据的人并不多。现在随着大数据的产生,每个人都在谈论大数据,大数据就变成了一个时髦的、甚至被一些人滥用的词语。
至于我对大数据的理解。首先我同意你讲的,大数据的产生会影响到社会、研究和文化。但是它为什么重要、怎么来用,绝大多数人都是茫然的。什么是大数据?大数据是我们现代生活或工作留下来的数字脚印(footprint)。这些数据不是为研究采集的,而是一个生活的副产品。
现代化生活在很多地方都会留下数据的脚印,比如打电话、付帐、乘地铁、使用打车软件等,我们所有的行为都电子化了,这种电子化的生活方式和工作方式就为我们提供了可以利用电子化数据的机会。所以我说大数据实际上不是为研究而存在,而是我们的生活工作留下来的痕迹、是一种电子脚印。
从这个意义上来理解大数据,就会认识到大数据有几个典型的特点。首先它并不是一个新事物,过去就有电子化的数据,比如美国的人口普查很早就有,当然有些已经失去了,而且并不是电子化的,但是它有数据,是为政府服务的。后来我们有档案、有文本,虽然没有完全电子化,但是我们的生活已经留下了很多数据,这些是可以电子化的,而且现在也正在变成电子化。
其次,大数据并不意味着 “大”很重要,很多人说大数据的优势在于它很大,它这个“大”的确有它的规模很大的这层涵义,因为生活每时每刻都在产生数据,所以它的量很大。但这个意义上的“大”还不是主要特征,它的主要特征是它的产生方式不一样,它不是为了研究而存在的,而是由我们生活和工作本身就能产生很多数据。
有的时候我将大数据叫被动数据,因为它不是为研究目的而有目的性地收集,而是被动产生的,比如打个电话,这些电话的记录留下来。这时,你并不是为了研究而去打电话记录数据,打电话只是你的日常工作和生活,这些数据是被动记录的。
Q:大数据的重要意义在哪里?
以前我们没有数据,特别在中国,相对来讲,数据获得途径是受限的,而且学术数据特别缺乏,很多数据不共享。对于官方数据,一是不能得到,二是不知道准确不准确。所以,中国很多年来由于数据的贫乏和质量的不确定性,以及数据获得受限,民众对数据的需求难以满足,大家想知道现实到底是什么。
在没有其它数据来源的情况下,大数据的产生使得大家有了一些了解情况的渠道。这个产生从无到有,一下子就激发了人们的兴趣,觉得大数据非常好。大数据的出现打破了过去那种数据被垄断封锁的局面,给我们提供了以前没有的数据。
另外,以前很多方面是没有数据的,比如说交通的数据非常难收集,还有社交网络的数据也非常复杂难以掌握,所以大数据最重要的贡献,并不是它量大,而是我们能够通过大数据获得在社会现象和行为方面过去没有的数据。
在西方,数据系统相对比较完善,有些政府的数据是公开的,是共享的,研究者的数据也要求要公开,还有一些商业数据、企业的数据、NGO的数据、智库(thinktank)的数据等都是共享的。
西方的数据文化大约有100年左右的历史,社会调查的数据大概有70年左右,数据文化是一个缓慢的发展过程,在这个过程中,大数据慢慢填补了很多空白,在这个数据生态里面逐渐起到了作用,但大数据没有把其他的数据完全排挤出去,所以数据领域呈现出一个各种数据都有的全生态景象。
而在中国,因为学术数据、政府数据相对来讲比较缺乏,所以大数据一出,给人的感觉就像把其他数据都取代了,但实际上不应该是这样的。
Q:您谈到了大数据的特点和优势,那么您如何看待大数据的缺陷?
大数据有几个缺陷:
1.它虽然量大,但你仍然需要怀疑它的代表性。有的人用手机,有的人不用;有的人一天发很多条微博,也有人一条不发;有人有几个银行账户,有的人没有账户。所以它的代表性是有缺陷的,你不知道它的总体是什么,这是选择性的问题,是难以克服的。因为它是行为数据,是被动记录的,很难控制,所以我们只能用统计的方法尽量减少偏差。总体是什么,到底能不能推论,今天的总体和明天的总体是不是一样,推论的对象是谁,这些异质性问题和选择性问题都很难解决。
2.大数据的变量可靠性和数据质量也是不确定的。比如机器学习中的文本分析,正面情绪的一个形容词和一个主语在一起,机器认为它是正面的,但它可能是讽刺的,或者有其他的含义。你只有读完这句话才能读出背后的情绪,但机器不一定能读出来,所以有很多干扰(noise)在里面。数据量大了以后,数据清理的代价也很大,很多人不做数据清理,可能也不做verification(数据验证)。如果不做最基本的工作,数据质量将是个很大的问题。
3.它的测量问题(measurement)。大数据是被动数据,很多事情没法问,比如情感问题、满意度问题。在被动数据里面,除非是非常非常不满意,或者是抱怨这个客户,才能通过数据读出这个人的情感,可是一般人的情感可能没有那么强,是否满意他不会主动告诉,而且很难用设计来把内在的(隐私的)东西挖掘出来,也是不合法的。大数据作为被动数据是本来就存在的,就不能再改造它,也不能通过设计来改进,所以它的测量是有限的。
4.第四个缺陷可能是更致命的,就是数据整合(data integration)和数据厚度问题。比如你有电话数据,银行数据,银行数据和电话数据整合起来可以知道一个人的很多事情,但也是不确定的,因为你的钱可能放到别人账户里了,或者说我们也并不知道你账户的钱是不是你的、是哪里来的。还有很多类似问题,需要整合其他数据,比如学历、病历等。
合并这些数据是非常困难的,首先是电子数据产生没几年,可以使用的信息有限,其次是大数据的变量非常少,不够用来对一个人的长期轨迹做描述。
而传统调查却不同,调查数据可能有几千个变量,各种方面都有,而大数据他只有一个方面,手机就是手机,微博就是微博,你对个体其他的特征知道得非常少,而且没有一个长期的跟踪,所以大数据比较致命的就是很薄,对一个人的了解很少,很难深入探索异质性问题。
比如,个体差异的原因是什么?可能有关他过去的经历、家庭背景等一些我们不能通过大数据看到的东西(缺失变量)非常多。再比如,看微博但并不知道他发帖还是留言是真人还是假的,是一个人在操作还是多个人。
所以很多事情是没法确定的。这就导致大数据的厚度受到很大限制,时间的长度也受限制。因为异质性问题,大数据用于因果推测仍然十分困难,也需要诸如工具变量、断点回归等方法,还是需要假设,所以大数据不能解决最根本的困难。虽然大数据对研究有很多帮助,但是最根本还是要靠学者自己的能力,所以好的学者永远有优势,好的训练底子永远有优势。想要通过大数据本身来解决方法上困境的想法和做法是行不通的。
实际上,所有社会现象的数据都是有局限的,这也就是为什么我们要收集不同的数据,从不同的方面、不同的角度看一个问题。
这和我以前讲的三个基本原则有关:为什么需要数据、为什么需要不同的数据?就是因为个体的异质性很强,个体与个体不一样,这个人不能代替那个人,那么如何知道这个人的特征?
我们可能需要不同的测量,包括现在学者们想测量的基因、这个人小时候生下来的情况、家庭背景、中年生活、老年生活等整个生命历程。我们经常需要跟踪性调查,而中国其实很少有这种几十年的跟踪调查,这种数据都是需要相当长期的积累。
虽然大数据获取速度快、量大,但它相对来讲信息量中每一个个体的信息非常少,一个人的各个方面也不能够联系在一起。所以,我觉得大数据是一个薄数据或者浅数据,而不是深数据,不是一个畅通数据。
也因此做研究用大数据还是有缺陷的。但也不能因为大数据有缺陷就不用,恰恰相反,大数据可以从另一个角度反映事实的真相。正是因为每种数据都会有缺陷,现在的大数据可以弥补其他数据的缺陷,同样,其他类型的数据也可以弥补大数据缺陷。
所以我对大数据的看法就是,我们需要一个数据生态,这个生态应该是有各种各样的数据,各种数据发挥不同的作用,大数据有大数据的作用,调查数据有调查数据的作用,政府数据也有政府数据的作用。
我这里把政府数据和大数据分开,实际上大数据也可以包括政府数据,因为政府管理也是工作,也产生大量的数据。
一般数据类型基本的划分是包括三种:商业的、行为的数据,这是一般的大数据;政府的管理数据,这实际上也是大数据;第三种就是研究性的调查,这是传统数据,也就是常说的抽样调查数据,此外还有一些为研究目的而特定产生的数据。
这三种数据在社会里、在学术团体里、在国家制定的政策里都有它们的作用。我们不能够只重视一种数据而忽略其他的数据,不同的数据、不同的主题、不同的类型、不同的人群、不同的数据结构都需要存在,因为它们能够互相弥补各自的缺点。
Q:您主张建立一个数据的生态,它是各种数据的融合。进一步从方法论的角度,现在社会科学定量研究也有一套方法论,比如说以因果分析为核心的一系列方法论。但大数据进入数据生态,是将继续这种研究范式,还是可能带来研究范式的革新?
伴随大数据的产生,我觉得社会科学基本的研究范式并没有变。用数据检验理论的研究范式没变,因果分析的标准、方式也没变。从研究设计来讲,我觉得大数据的产生给我们的研究带来了很多便利,以前不能做的现在能做了,但是整个大的范式并没有改变。
那么它带来的改变在哪呢?首先是选题的改变,以前很多不能做的现在有数据能做了,数据量比较大,能够支持一些以前传统数据不能做到的。
其次它对计算的要求也高了,也给方法上带来了挑战,主要是计算方面的挑战,比如机器学习(machine learning),small area的非参数(non-parametric)估计,这些理论上的范式上以前都是有的,但是以前没有数据来支持这样的设计和方法。所以从计算方法和选题上都有很大的进步,我们不再局限于传统的命题和传统的方法。
Q:一些人认为人工智能或新的方法的出现,可能加大学术界的贫富分化:可能有部分人掌握了新的方法而走在前面,而另一部分人只会传统的研究方法、数据计算。这样是否真的会造成分化,或者说是朝着两个不同的方向发展?
大数据的产生会造成分化,但我认为不是像你说的那种分化。我觉得主要的分化就是资源的不平等,大数据的价值在于数据的获得和使用。
有一些数据,比如说政府部门的数据,只对一部分人开放,这样的话能否获得政府资源就决定了你能不能有这方面的资料做研究。很多商业的数据也是只对部分人开放,所以有头衔的、受到信任、受到委托的,或者成就高的人更可能有资源,所以是资源的不平等造成的分化。
还有一个不平等,现在的大数据研究需要团队合作,因为大数据研究可能需要不同的专业、需要计算能力、需要编程、需要可视化等,各方面都有团队要求。单枪匹马做研究比较困难。
这两个方面的不平等实际上也会反映到机构层面,比如可能更好的学校更容易得到资源,更可能有不同的团队来支持他,可能像北大清华这样的学校会更有利,一般的学校一般的老师他们可能就没有得到资源,或者不能够有一个很大的团队,我觉得这个不平等是有的。
研究方法上的分化和不平等,我并不认为会产生。因为大数据技术的使用跟以前的方法一样,我觉得掌握技术并不难。真正有了大数据,要学要做都能做到,因为数据是有限的,方法也是有限的。
像机器学习、参数估计这些方法都是以前人们就知道的。在这些大数据出现之前我们就假想了有这样的数据要怎么样做。我们当时就知道,再换一个很大的数据会怎样,像今天运用到的一些例子的确证明了我们原来的想法。
Q:关于大数据您还有什么要补充的吗?
谢宇教授简介
谢宇教授是在国际学术界享有盛名的华人社会学家。他的主要研究领域包括社会分层、统计方法、人口学、科学社会学和中国研究。他在推动定量研究方法的发展上做出了重大的学术贡献,发展出一系列分析分类变量的新方法。出版的著作主要有《Is American Science in Decline》《Statistic Methods for Categorical Data Analysis》《Marriage and Cohabitation》《社会学方法与定量研究》《回归分析》等。
本期撰稿:严肃的人口学八卦组
本期编辑:董浩月 人口学研究生