贫穷限制了你的想象力?!| AI & Society第四期回顾
贫穷限制人的想象力?这是真的。贫穷在一定程度上会损害人的认知水平和决策能力。几年前有一篇经典的论文,发现贫穷往往导致注意力资源的短缺,进而降低人的认知能力。都说“读书改变命运”,但不同阶层之间的人阅读习惯和阅读内容会不会就存在显著的差异?本文通过分析不同阶层手机用户的阅读数据,发现社会阶层高的人有良好的阅读习惯,而社会阶层低的人反而会陷入“注意力"黑洞,在”娱乐至死“的数媒时代彻底迷失,陷入社会底层的死循环。
2018年3月25日,腾讯研究院和集智俱乐部联合举办的AI&Society系列沙龙第四期在南京大学新闻与传播学院如期举行。集智科学家、南京大学新闻与传播学院副教授王成军以及他的两位学生(陈志聪:南京大学新闻与传播学院硕士研究生;徐绘敏:南京大学信息管理学院本科生)围绕“社会阶层与数字媒体中的注意力流动”展开了一场颇具启发意义的探讨。这篇文章是陈志聪的现场报告总结稿。我们将会继续推送该系列总结,敬请关注。(传送门:大数据会暴露你的社会阶层吗?)
南京大学新闻与传播学院硕士研究生陈志聪
1.从一篇论文开始——
贫穷会损伤你的认知能力
今天我要讲的研究题目是《社会阶层与数字媒体时代的阅读行为》。这个研究差不多是我过去一年一直在做的工作。我们关注的研究问题是社会阶层与注意力的流动。
最初其实是受到这篇论文影响。这篇文章通过做实验,观察人在被问及与经济有关的问题之后,在认知水平上受到的影响。
“贫穷限制想象力”
结果发现,在一些比较easy的经济问题上,穷人和富人表现差异不明显;但在一些比较hard的经济问题上,穷人的认知水平有明显的下降。
他们一共做了4组实验,其中最后一组深入到了印度做了一组田野实验,那里的人们在丰收前是穷人,丰收后是富人,对同一组实验者而言,对比它们丰收前和丰收后的表现,同样能够发现穷的时候认知水平低于富的时候的认知水平。
文章的结论中说,经济因素对注意力资源的占用,会大大影响人的行为和决策。
2.一个粗糙的假设——
iOS 用户的社会阶层高于 Android 用户?
我们的原始数据集长这样,数据合作方是百度阅读,数据记录了3个月内15万用户的所有行为。主要包括三种:阅读行为、购买行为和使用兑换券的行为,表格里是一些基本的统计信息。
这里面有一些比较有趣的信息。比如,有购买行为的人只有1/5左右,但使用兑换券的行为却很多,而且购买的人买书数量的中位数是3,说明付费阅读的人群依然是少数。
3个月内,15万人在“百度阅读”APP中的行为数据
基于此,我们想要观察的是,不同社会阶层的人读什么书,以及怎样读书?
我们想提出的假设是:社会阶层决定了每个人的生活方式,生活方式决定了空闲时间;空闲时间决定了阅读内容,最后,所谓的“读书改变人生”,读什么决定了你会成为一个怎样的人,活在怎样的阶层里。
我们的数据目前还无法完全支持我们严格检验这个假设链条,但我们多少发现了一些有趣的信号。
社会阶层是如何固化的
由于数据所限,我们采用手机操作系统来粗略地划分用户阶层。
这当然是一个比较弱的假设,不过我们找到了一些比较实际的证据。比如一份采用Twitter和手机数据的研究显示,在美国,iOS的人更多聚集在大城市,Android多分布在农村地区。根据腾讯CDC的一份9000份样本的在线调查显示,高收入人群使用苹果多于华为。另外在很多手机APP上存在“杀熟”现象,比如说,同样是充爱奇艺的会员,iOS和Android可能价格就不一样,这一现象还广泛的出现在酒店预订、打车等应用中,这说明至少在业界,人们某种程度上已经形成了一种“共识”或是“刻板印象”,即iOS的人社会阶层高于Android。
社会阶层的一个粗滤划分方式:iOS 高于 Android
3.第一个发现:
群体注意力中的长尾效应
我们从注意力流动的角度来研究,所谓流动,本来就有两个维度,流的方向和流的时长。我们之前先做了注意力流网络,想直接拿来预测,但效果不好,所以需要更多的描述。
我们首先观察流的方向。第一个发现是,群体注意力有着高度的集中化结构,换句话说,就是有长尾效应。
从阅读时长上来看,大部分的注意力被投入到了原创女频上,紧随其后的是原创男频和小说,除此三者之外,其他种类的书在争夺注意力的时长上几乎没有竞争力。
从右边的阅读数量上看,依然是小说、原创女频和原创男频独领风骚,不过优势没有左图那么明显。这说明了什么?说明很多人还是想去读一读尾部那些书的,但是呢,又很难坚持下去,容易浅尝辄止,还是头部那些书的吸引力大。
我称男频女频为注意力的黑洞,是因为它们虽然数量并不占优,但占用了大量的阅读时间,而且还是娱乐化的,并不能对自我有多大的提升。
群体注意力的集中化的结构
4.第二个发现:
有的人畅游书海,有的人被困在茧房
接下来我们研究“共现”这一现象,也就是co-reading,在论文中这称为受众的重叠。总而言之,是关于我们怎样共读同一类书的问题。为什么研究共现?因为共现体现了一种connection,这种connection可以包含很多宝贵的信息,比如阅读兴趣,比如socialinfluence等等。
我们首先考虑这样一种构建共现网络的方法,网络中的节点是书,两本书之间的边要进行这样的筛选:假设BookA的到达率是0.5,也就是说有60%的人读了这本书,BookB的到达率是0.3,那么概率上既读BookA又读BookB的人会有0.15,即ExpectedOverlap,而假设我们实际观测到既读A又读B的人占了0.2,也就是比概率上的期望要高,那么这条共现的边可以保留。
在这样的网络中,计算每个节点的度分数,它衡量了不同种类图书的读者的重叠程度。
可以发现除了原创男频和女频之外,其他种类的图书之间共享的读者较多,而原创男频和女频的读者却很少与其他种类的图书共现,重叠程度很低,初步形成了“信息茧房”效应。
细心的同学应该发现,上述构建网络的方法非常严格,丢掉了很多边,因此构建起了的共现网络其实是不完整的,不过之前介绍过的计算Z分数的方法就比较好的解决了这个问题。
这里每对book pair其实就是共现网络里的一组连边,我们计算任意两类书重叠的频率的Z-score,计算方法大概是这样:
先计算两类书overlap的频率,然后将整个网络随机化一下,得到一组overlap的值,按照Z-score的计算公式计算可得。
基于Z-score的计算方法,我们可以构建起一个知识的空间。
在这个空间中,凡是与原创男频或女频组合的pair都不常见,最常见的都是自己和自己组合的pair,再次说明人的注意力容易汇聚到同一个种类的图书中去。
5.Android 用户与 iOS 用户的差异
谁更爱读原创男频、原创女频?
接下来,是我们的核心发现。我们发现,在不同种类图书数量差别不大的情况下,Android阅读原创男频、女频、小说的概率大于iOS,iOS阅读其他种类书的概率高于Android。
“穷人为娱乐而读,富人为教育而读”
从知识空间的角度,我们将iOS和Android在知识空间中游走的范围可视化了出来。可以看到,iOS游走的范围比Android要高。
统计数据也支持了我们这一结论,Android虽然阅读时长高于iOS,但他们无论是阅读书的数量还是种类的数量都要低于iOS。
从时间上来看,将这15类书按照一天24小时内阅读的频率分布画出来。这里y轴是一天内阅读的频率,表明了阅读的主动性。
可以发现,Android仅在原创男频和原创女频上频率高于iOS,在其他种类上,iOS均高于Android。
6.爆发现象:
Android 用户的阅读时长波动大于 iOS 用户
最后,我们做了一些阅读时间模式上的探索。
我们的出发点是人类行为中的爆发现象。
Barabasi发现人收发邮件的时间间隔成幂率分布,也就是存在爆发现象。
在图上看,就是一段时间频繁收发邮件,但之后又会有很长时间的沉寂。
Kleinberg开发了一套从时间序列中检测爆发的算法,他将爆发划分成两个维度:宽度和深度。如图,爆发宽度大表示爆发的次数多,爆发的深度大表示一次爆发程度比较剧烈。
从个体层面上,我们发现,Android阅读行为的爆发深度和宽度都高于iOS。不过从群体层面上,我们发现Android用户在一天之内阅读时长的波动很大,说明受到各种生活结构的影响很大,时间的可支配性不如iOS用户。因为iOS的时间数据出错,误差1000秒,所以数据可能有误。
7.结论:在娱乐至死时代
你要保护好自己的注意力
总结一下,虽然我们对社会阶层的测量存在争议,但是,即便采用这样粗略的分类,我们还是能够观测到一些震撼人心的信号。
我们的研究在一定程度上表明,社会阶层高的人并非没有原因。
阶层较高的人,他们由于有良好的生活方式等原因,能够形成比较稳定的阅读习惯,同时读书的范围也较广。
而阶层较低的人,他们同样由于生活方式的结构原因,导致阅读时间的波动较大,因而更容易被那些注意力的黑洞吸引。
在这个“娱乐至死”的移动媒体时代,我们能够看到娱乐的强大力量正在吞噬人们的注意力。
伴随着现代生活的紧张与压力,娱乐对人的诱惑越来越强大,要抵抗娱乐的诱惑,需要更强大的内心和更坚定的修养,唯其如此,才可能不让自己陷入社会底层的死循环中。
推荐阅读
Love is All You Need | 无标度网络理论之父Barabási回应史上最严重质疑
彩云ICLR 2018顶会论文带你进入“组合式神经编程”的世界
集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!