有了大数据这个工具,“社会科学”也许可以变得更让人信服!
这是傅一平的第248篇原创
作者:傅一平
个人微信:fuyipingmnb
突然要写这篇文章是发现朋友圈好友贴了这篇文章:《左派右派不只不共戴天终于发现一些共识》,见下图,然后质疑道:“调查方法和脚本科学吗?样本可信且无污染吗?样本数量足够大吗?.......我怀疑教授看不懂我的问题。”
的确,以前没大数据只能设计下问卷抽样调查,那叫没办法,但大家都知道问卷调研其实问题很多,数量太少、样本偏差、诱导式提问都会导致完全不一样的结果,这些传统方法在诸如预测谁当总统等场景的时候败得一塌糊涂.
而讨论左派右派这种复杂、敏感性的社会问题,嘴上说的、心里想的、实际做的可以完全不同,问卷调研实施难度就更大了,你说怎么办?
因此,我们需要新的手段,而在这个人人会上网的时代,人们向搜索引擎吐露了心声。
当前大数据已经突飞猛进,但在社会领域,很多学者似乎还没有适应这些新的工具,即使号称用到了这些方法,也很少说明怎么做的。
笔者想,现在很多的企业大数据都搞得如火如荼,是否大学的社会研究也要与时俱进,如果有志于用数据分析解决真正的社会问题,这个领域现在非常值得进入。
最近正好读到万维刚在得到《精英日课》讲解的书籍《人人说谎:大数据、新数据以及关于真实的你我,互联网能告诉我们什么》( Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are ),里面提到很多用大数据洞察的社会科学的问题,作者是赛斯·史蒂芬斯-大卫德威茨(Seth Stephens-Davidowitz)。)。
赛斯的简历很有意思,本科是在斯坦福大学学的哲学,博士是哈佛学的经济学,他之前在Google做数据科学家,现在在沃顿商学院当老师。
万维刚说:我们的文科教育似乎不太可能培养出来数据科学家 —— 而赛斯这个跨学科的经历,对他在这本书里说的事情却是十分重要的。
我们来看看赛斯是如何利用大数据这个工具,来讨论社会问题的,虽然这本书的各种结论不是完全可靠,但至少比“”常识“可信,而且他用的数据很多还是公开的,笔者自己也验证了下,还是蛮有趣的。
01 如何判断左派和右派?
就以美国为例,假设共和党偏右,民主党偏左,我们就有一些判别办法,同样一件事情,共和党和民主党在叙事的时候,关注点和措辞会有所不同,比如房地产产税,民主党管它叫“estate tax(遗产税)”,而共和党就管它叫“死亡税(death tax)”,倾向性非常明显,咱们来欣赏下两党的不同说法:
美国共和党和民主党对于同一词汇的不同表达
研究者可以从各种社交媒体中去找这些词组,你就大致可以判定哪些媒体偏左,哪些媒体偏右,用到个人身上大致也靠谱。结果发现,媒体的政治偏见,是由地域决定的,这家媒体覆盖地区的人大多有什么样的政治倾向,这家媒体就是什么政治立场,如此说来,媒体并没有什么自己的立场,他们只是看读者想听什么,他们就说什么,真正起决定性作用的是市场。
笔者其实很想知道,中国网民左派占比6.2%,右派占比38.7%,这些数字到底是怎么统计来的,不会是冲上去问你是左派还是右派吧,很多人根本不知道左派和右派到底是什么意思。
02 种族,地域歧视如何判别?
问两个社会问题,奥巴马嫩刚当上总统,是否说明美国没有种族歧视?某某省人真的被更多的人歧视吗,到底有多严重?
第一个问题赛斯有自己的研究手段,即Google Trends,第二个问题笔者用了百度指数。
“nigger”这个词的意思是“黑鬼”,是对黑人非常严重的辱骂,赛斯发现,奥巴马第一次当选总统前夕,跟“Obama”这个词连在一起的搜索中,有1%,包含“nigger”这个词,在某些州,搜索“nigger president(黑鬼总统)”的人,比搜索“first black president(第一位黑人总统)”的人还要多。
这个比例似乎不大,但是落实到选票上,赛斯估计,以全国总数而言,奥巴马至少因为种族歧视少拿了4个百分点的选票,奥巴马当选总统,不是因为美国没有种族歧视,也不是因为种族歧视对选举的影响很小,而是因为奥巴马和民主党在其它方面的优势实在太大!
然后笔者很想知道美国的黑人歧视趋势是否在变好,因此自己去验证了一下,2004年1月的时候“nigger”这个词的搜索指数是91,而到了2018年10月只有45了,说明14年间美国黑人歧视严重程度下降了一半。
美国搜索“nigger(黑鬼)”关键词的变化趋势(Google Trends)
同理,要判定国内地域歧视也可以采取类似的方法,这里笔者选了涉及歧视的诸如XX省人等关键词,然后通过百度指数做了比对,不同省被歧视的程度是完全不同的,比如这里的两个省被歧视程度就差了2-3倍:
关于某两个省的地域歧视关键词的比对(百度指数)
当然采用这种研究方法,最担心的问题是使用网上搜索数据获得的结论可能是有偏见的,毕竟你研究的都是“会使用搜索引擎的人”,这些人都有多大的代表性呢?他们的文化程度,甚至收入水平,可能都高于一般人。
但有三个方面的因素让我觉得方法还是靠谱的,第一是现在大部分人都已经学会了上网,2018年8月中国网民已经超过8亿,第二是大部分人在网上搜索的东西是和他自身状况相关的,像我这样纯粹出于好奇心去搜索的人应该很少,第三研究采用的要么是搜索结果和搜索结果比对,要么是看发展趋势,比如不是比较搜索和未搜索的人比对,而是这个省和那个省对于同样关键词的搜索结果比较。
03 杭州如何成了抑郁高发地?
我们知道好天气能让人心情愉快,而阴雨连绵或是寒冷的天气,则让人心情也糟糕,笔者记得以前做过一个通信行为的分析,只要是下雨,人们就会减少打电话的频次,10年前这个影响是下雨让计费收入下降5个点,每次领导要求分析计费收入波动的原因时,自己就会去飘渺水云间(浙大一个BBS)查看天气版记录的去年/前年的天气情况以便比对,运营商也得看天吃饭啊。
我们回到赛斯的例子。
美国有些地方,像芝加哥的天气就常常是阴冷的,而有些地方,像加州和夏威夷,就常常是阳光灿烂,记得以前听高晓松的脱口秀栏目时,他就说自己喜欢加州,阳光明媚,躺在沙滩上等等,真的是放松心情的好地方。
好,那么现在有个问题:一个住在芝加哥的抑郁症患者,为了治疗抑郁症,他是不是应该搬家到夏威夷呢?
这个问题的关键就在于我们“知道”搬到夏威夷会缓解抑郁症,但是我们不知道这个缓解的程度是大是小。我们需要一个量化的评估。
Google搜索数据可以帮助你,研究显示,住在夏威夷的人,搜索“抑郁症”的比例,比像芝加哥这样的寒冷地区下降了40%,这个效果有多好呢?要知道,哪怕最好的抗抑郁药物,也只能让抑郁症的发病率减少20%。
笔者想通过百度指数验证下国内的情况,发现似乎没有这个规律,比较了广东和辽宁,广东日均搜索值1621(上网人口8000万),辽宁日均搜索值605(上网人口2700万),两者按人口比例算相差无几,是否是因为国人传统上并不太认可抑郁是种病,也就很少去搜索相关信息求助了,可惜Google Trends和百度指数的热度指标含义不同,否则看看搜索数量就大致可以推测了。
但看了城市的“抑郁症”搜索排名,却有些意外,排在前五的是北京,杭州,上海,深圳,成都,而杭州按人口比例算应该还超过了北京,想想杭州多如牛毛的互联网创业公司,也许你能找到答案。
搜索“抑郁症”的城市排名
04 朋友圈是真实人生吗?
赛斯说,美国有一本杂志叫《大西洋月刊》,主要是刊登时政和思想方面的内容,是比较高级的杂志,美国还有一本流行杂志叫《国民探秘者》,讲的都是明星的隐私,迎合低级趣味,你大概会愿意让别人知道你读《大西洋月刊》,但你不会想让人知道你读《国民探秘者》。通过这两个杂志的数据,我们可以对比一下公开和私下的区别。
这两本杂志的发行量是1:1,它们在网上被搜索的次数也是1:1,Google搜索可以说是非常真实地反应了这两本杂志的实际影响力。可是,这两本杂志在Facebook页面被点击喜欢按钮的次数是27:1。
在社交网站上,我们更倾向于表现出优越感,但不可否认,大家都喜欢八卦,你有那么八卦吗?你最喜欢的就是八卦,我们的朋友圈很多高大上,但我们的实际行动很多上不了台面,比如笔者前几天跑步突破6分钟,马上在朋友圈里贴了出来,但却没说其实膝盖疼的越发厉害,得再休息几天啊。
什么叫作真实呢?
来看看“读书”的热度跟“范冰冰”的热度之比是1:200,”阅读”与”范冰冰”的热度之比是1:100,就连最近的热点“诺贝尔奖”与”范冰冰”的热度之比还是1:30,你说这没可比性,笔者就特意挑了美国的最火明星泰勒·斯威夫特,但“reading”与“Taylor Swift”热度之比却是反过来的2:1。
搜索“读书”、“范冰冰”、“阅读”、“诺贝尔奖”的百度指数
搜索“Taylor Swift”、“reading”的Google指数
你说这不客观,代表读书的关键词并不仅仅是读书啊,那么,我们还可以看趋势!以为随着物质水平的提升,全民读书的热情最近几年肯定在增加啊,什么知识付费、得到、知乎、混沌大学啥的轰轰烈烈,但现实似乎很残酷,“读书”这个搜索关键词7年来竟然没有什么上升,甚至还在下降。
自2011年以来的搜索“读书”的百度指数趋势
但美国“reading”这个关键词的搜素却是增加的:
美国自2011年以来的搜索“reading”的Google指数趋势
到底是百度指数的问题,还是真的有问题? 我们以为没那么夸张,但大数据也许观察到了真相。
05 是谁把你变成了粉丝?
前段时间张学友来杭州开演唱会,笔者错过了,懊悔不已,因为自己是张学友的粉丝,而当下那些流行音乐都是些什么啊,难度现在的年轻人审美真的这么LOW吗?
反思下觉得是自己不对,因为当初迷恋谭咏麟的时候,母亲也说过同样的话,这唱的什么啊,听都听不懂,当时真的难以理解父母那一辈,现在好了,大数据来帮你解惑了。
赛斯和他弟弟相差四岁,两人长得很像,但他们的兴趣爱好很不一样,比如赛斯非常喜欢棒球,而他弟弟对棒球完全无感,这个情况挺普遍的,一个家庭的几个孩子,按理说基因应该差不太多,在家里的生活环境还是一样的,为什么会有不同的爱好呢?
这个问题,一般的心理学家,什么教育专家,都很难回答,因为你不可能长期跟踪记录一个人的成长,但大数据可以,大数据发现,一个人是否会成为某只球队的球迷,跟这支球队夺冠的时候,这个人的年龄有关。
下面这张图说的是棒球,横坐标是一只球队夺冠的时候,你的年龄是多少岁,纵坐标是这个夺冠事件让你在成年以后成为球迷的概率增加了多少:
最关键的年龄是八到十岁。如果你八岁的时候,家乡的一支球队夺冠了,你就容易成为这支球队的球迷,并且因此爱上这项运动,终生都是球迷。可是如果球队夺冠的时候你已经二十岁了,那这个事件对你的影响就很小。
换句话说,人的兴趣爱好的养成,有一个窗口期,就好像那些青春小说里说的一样,想要爱上什么东西,你就得在人生的关键时期遇到它。
感觉说得不错啊,自己喜欢谭咏麟,是因为记得小学三年级的时候某天,哥哥带了同学到家里,说最近谭咏麟出了张专辑《爱的根源》,然后两人在那里放录音机听,正好有首歌叫做“捕风的汉子”,狂放的节奏、磁性的声音和两人陶醉的样子让我瞬间迷上了谭咏麟,还有喜欢马拉多纳是因为1986,喜欢上AC米兰三剑客是因为意甲,自己似乎所有的喜欢都停留在了那个年纪。
想想TFBOYS、鹿晗、吴亦凡等也许就是这一代娃娃的永不磨灭的记忆吧,虽然感觉好奇怪。
如此说来,如果你想长期经营一个东西,“从娃娃抓起”这句话可真是没错啊,想想觉得中国足球有点悲哀,现在娃娃有几个在踢球啊,而大数据还告诉你现在20多岁的人基本也成不了球迷,倒觉得电子竞技肯定辉煌,因为大家的娃娃都在玩。
06 说教其实没啥用?
2015年12月2日,美国发生了一次穆斯林持枪大屠杀事件,导致多人死亡。作为“白左”的优秀代表,奥巴马发表演讲对美国人民进行说教,说千万不要因此仇恨所有的穆斯林,不要搞种族歧视。主流媒体对奥巴马的这个演讲一致赞美,但是演讲的实际效果如何呢?
Google 关键词的实时数据显示,在奥巴马发表演讲的同时,仇恨穆斯林的搜索比平时高出两倍。这么看来,奥巴马的演讲还不如不讲。他越讲不要歧视穆斯林,老百姓越反对穆斯林移民,整个起了反作用。
那这个问题怎么解决呢?过了一段时间后,奥巴马又发表了一次演讲。这次演讲中,奥巴马说到一句话:穆斯林不仅仅是恐怖分子,他们也是我们的邻居和同事,穆斯林中还有很多伟大的运动员,他们代表美国在国际上争得了荣誉,还有许多穆斯林参加了美军,正在为美国而战。
奥巴马刚说完这句话,Google 搜索可能是有史以来第一次,和穆斯林有关的搜索中,排名第一的是运动员,而不是恐怖分子。美国观众非常想知道到底有哪些运动员是穆斯林。
简单的说教没用,但如果你能给人提供一些新的事实,激发别人的好奇心,就非常有效。
07 你是否是孤独的?
大数据能够使得我们能更加了解别人,让我们知道,别人的状况比我们好不了多少,如果有什么怪癖,或者对自己的身体不满意,现在大数据可以告诉你,你并不是孤独的。
比如笔者跑步突然膝盖痛,有点担心是不是自己出了大问题,然后百度指数里一搜问题“膝盖疼是怎么回事”,竟然每天有4300人在问同样的问题,这样我就放心了,因为代表自己并不特殊。
老师鼓励学生要勇于提问,总爱说一句话,“世界上没有愚蠢的问题!” 老师说,你觉得愚蠢的问题,也许正是你的同学也想问的。这套说辞其实没啥说服力,我们依然害怕提出一个太简单的问题而被嘲笑,而Google可以告诉你,人们就是在问一些愚蠢的问题。
比如2014年,奥巴马的一次国情咨文讲话,Google就捕捉了很多“愚蠢的”问题,要知道这时候奥巴马已经当了6年的美国总统,老百姓应该对他非常熟悉了,可是你知道奥巴马讲话过程中,Google搜索上关于他最热门的问题是什么吗?是奥巴马今年多少岁。排第二的问题是副总统拜登身边的那个人是谁。排第三的问题是众议员议长今天为什么戴个绿领带。
所以你要是觉得你不懂、你很惭愧,那么你要知道,别人也不懂,如果你觉得你在某一方面很差劲,那大数据也许会告诉你别人也没那么好。
如果你还不过瘾,赛斯还提了很多有趣的用大数据解释的现象:
发现胰腺癌:先锁定那些在网上搜索“我被诊断出胰腺癌,我该怎么办”之类的人,然后再看这些人几周,几个月前是否搜索过其他跟健康有关的症状,再把这些症状跟没有得胰腺癌的人平时搜索的的健康问题比对,就能发现胰腺癌的独特症状,那可能就是前兆,比如研究者发现两组独特症状,第一组是背痛加皮肤变黄,第二组是消化不良伴随腹痛,也许一维数据不能说明问题,但两维数据就有点靠谱了。
红酒的价格预测:价格 = 12.145 + 0.00117 × 冬季降雨量 + 0.0614 × 生长期平均温度 - 0.00386 × 收获期降雨量,对于大数据来说,这个公式的道理并不重要,只要知道相关性能用就行。
男女好感衡量:男女谈恋爱能否成一般还是要看身高、性格等硬性指标,但有一个新研究,是把男女第一次约会全程的对话录下来,通过分析对话录音,就能发现重要的迹象,比如如果男性对女性有兴趣,有两个表现,首先女性讲笑话会非常配合的笑出来,其次会控制声调,因为声调起伏不大的男性更有吸引力,而如果女性对男的感兴趣,则会增加自己声调的变化,然后说话的语气会更轻,间隔会更短,更愿意多说话。如果这个女性说了很多“可能”、“我猜”,”也许”这类词,那基本表示不敢兴趣,而如果经常说很多“我”、我如何如何,女性愿意谈论自己,表明她对这位男性感兴趣。
谁能成为名人:能上维基百科的基本算是名人了,赛斯分析了美国(出生于1946至1964)上了维基百科的都有谁,这些人中每2058个人,才有一个能上维基百科,其中30%是因为文艺娱乐,29%是因为体育,9%是因为政治,只有3%是因为学术和科学,看来如果你的目标是出名的话,搞学问不是一个好办法。而名人的出生地,集中在两个地方,第一种是大学城,这可能是基因厉害,大学教授和研究生的子女比一般人聪明一点,更重要的可能是大学城提供了一个好环境,第二种是大城市,大城市是人才和创新资源集中的地方。但是教育投入跟成为名人关系不大,现代教育系统是批量生产普通人,而名人基本不在乎你怎么教他。
暴力电影增加犯罪是伪命题:赛斯的答案是暴力电影不但没增加暴力犯罪,反而减少了暴力犯罪,数据显示凡是有暴力电影上映的那些日子,暴力犯罪率都比平时下降了,为什么呢?原因可能让你哭笑不得,因为暴力电影把暴力倾向的人留在了电影院,没时间去犯罪,那么你要问,他们看完电影后愤怒值上升,会不会上街犯罪?也没有,因为很多人犯罪是因为喝了酒,而既然青年们都在电影院看电影,他们就没有喝酒。所以结论有点反直觉。
当然,大数据也会造成道德的困境,比如喜欢莫扎特的一般会比喜欢乡村音乐的人智商高,如果有人把这个信息告诉了你老板怎么办,毕竟这些涉及隐私,看来也只能留待未来解决了。
但不管如何,有了大数据这个工具,“社会科学”也许可以成为一门真的科学,到底有没有歧视?暴力电影到底是增加犯罪还是减少犯罪?如果没有大数据的证据,搞社会科学就感觉有点抓瞎。
这本书也在提醒我们,当你在讨论任何社会问题时,千万不要信口开河,最好能找到数据支持,要知道很多真相是反直觉的。
本来笔者想通过百度指数再深入的研究下,可惜定制化的词汇都要单独付费,想想还是算了,就留待有心人自己去研究吧,同时感觉互联网公司应该适当的开放一些数据,这对于社会科学的研究很重要,比如百度指数这个产品现在能分析的东西就非常有限,最后,用搜索工具和词频工具(Google Books Ngram View)还玩了点其它的东西。
子弹短信在某天爆发后,一落千丈,泯然众人矣!
词频分析能够作为中国顶尖大学声誉的参考,从趋势看,清华,浙大上升最快,复旦,南京基本原地踏步,中山大学在下降。
词频分析还能够可以看到电报,电话,传真,电视,计算机发展的此消彼长,比如电报最早发明,电视崛起于40年底,电话60年底超越电报,80年底超越电视,传真90年代有个高峰,然后回落。
交通方式的变化趋势则是地铁,自行车在上升,轮船在下降,飞机保持平稳,汽车一飞冲天。
完
作者:傅一平 (微信号:fuyipingmnb)
写文章不易,感谢转发点赞!
近期我的读书笔记及好书推荐
《白领将是高危职业吗? 读李开复新书《AI·未来》》
可能错过的近期精选文章(点击链接即可阅读)
如何避免成为一台取数机器?
哪些广为人知的数据挖掘案例其实是一地鸡毛?
数据的价值到底如何评估?
为什么我提交的数据分析报告总是被领导K?
我如何用统计学指导自己的生活?
从吴军的“算法的油水就那么多”说起!
一起成长,让我们与数据同行
忙完工作,偷得浮生半日闲,讲述自己的数据人生
大叔/电信博士/500强央企/大数据/人工智能/统计取数/数据挖掘/数据产品/数据管理/数据仓库/数据变现