如何糊弄出一篇数据新闻作品
如题,这是一篇大家期待已久的数据新闻制作小指南,然而你目之所及的还有“糊弄”二字。
没错,更文不稳定到把自己越作越糊的肖一,今天只是来发点敷衍的东西凑这个月的KPI罢鸟~
话不多说,切入正题:
搞个选题第一步
故事的开始,我豪情满怀,扬言要做一篇有深度、有广度、有创新度的数据新闻。
找个新冠肺炎主题?遍地都是。
聚焦热门综艺?都被做烂了。
研究性别平等?那还不如写论文投期刊。
......
正当我绞尽脑汁、不知所措的时候,我刷起了多姿多彩的朋友圈。
咦?怎么大家都在转这个:
然而就在我发出不屑之声的刹那,灵感迸发了。
就决定是你了,研究“肖一朋友圈好友对肖一的情感取向”!
没错,就是这么自恋 and 怪异的选题,喵~
概念不要忘了厘
首先,“情感”一词为心理学用词。
百度百科一下,说情感是态度在生理上一种较复杂而又稳定的生理评价和体验。简而言之,就是包含爱恨情仇一类的态度嘛。
而取向则是选取的方向,也即你在情感上选择爱还是恨,还是嫉妒等。
其次,再来说说为什么选择朋友圈。
朋友圈是一种强关系的联接吧,不说每个人都很熟悉,但或多或少都会有联系,其中,大部分都是亲戚朋友老师同学。从这些对我有一定了解的人中,获取他们对我的情感取向显然对我来说更具有意义。
再次,关于衡量情感取向的标准。
由于本研究的调查设计源自这个不知其源的网站,故就直接采取其设定好的15个变量指标,即“爸爸,好朋友,闺蜜,基友,知己,宝贝,男朋友,死党,老公,女朋友,老婆,仆从,徒弟,臭弟弟,初恋”,作为衡量情感取向的标准。
研究方法要靠谱
这步就最省事啦,因为我采用了人别人现成的调查设计,那已经就是一个赤果果的调查问卷啦!
U1S1,原调查设计只设置了一个单一问题,简单是简单了点,不过我这个糊弄研究要的东西本来也不复杂啊。
所以这步可以直接跳过!
上手操作是正事
但话说回来,当你在做一个正式研究的时候,「操作化」可是至关重要的。
因为它是决定如何收集你所需要的资料的,比如:直接观察、阅览官方文件、使用问卷或是运用诸如Python、SnowNLP等技术。
总之呢,不要因为我的糊弄让你觉得这步可有可无就好啦。
数据资料编好码
表1 分类情况表
收集到了数据,就要马上进一步处理啦。
我们先用EXCEL简单制个表,以行表示“参与者”,以列表示“不同情感取向”,根据不同参与者的选择进行赋值,“1”表示已选择,“0”表示未选择。
表2 样本赋值
首先,依据上表,可以看到15项变量指标的统计结果分布各异,故统计出不同变量指标的赋值表:
表3 变量指标赋值
由于在原调查设计中,每人至多选择5项变量指标,因此参与者在参与调查时表现出的程度有所差异,即有的人可能只选择了一项,有的人选择了三项,还有的人选择了5项......
假定选择项数与情感倾向程度有关,那么则有理由建立以下量表:
表4 程度量表
通过以上量表的规定,我们再进一步得到了从1-5每一程度的样本分布,如图:
表5 样本分布
此外,我们还需要考虑参与者在对15项变量指标的选择中是否具有规律性。
例如选择了“知己”的是否还会选择“好朋友”,选择了“老公”或“老婆”是否还倾向于选择“男朋友”或“女朋友”。
为此,我把选择项数在两次以上的数据提取出来,并将赋值“1”标红,建立如下表格:
表6 样本赋值(项数 > 2)
由上表可得,并未有一项变量指标的赋值呈规律分布,因此证明参与者在选取变量指标时具有主观随意性,故可以不考察参与者在对15项变量指标的选择中是否具有规律性。
再给数据化个妆
但这几张表格显然是太简单死板了,故我们得对其进行美化。
至于美化工具呢,个人比较喜欢用这两兄弟啦:
在后台发送「Adobe」即可领取安装包
当然,随着数据新闻业的日益发展,网络上已经多了很多现成的数据图表生成网站了,给大家推荐几个:
百度图说:https://tushuo.baidu.com
BDP:https://me.bdp.cn/login.html?lang=zh
花火Hanabi:https://hanabi.data-viz.cn/templates?lang=zh-CN
镝数图表:https://dycharts.com/appv2/#/pages/home/info-template
PlotDB:https://plotdb.com/
Flourish:https://flourish.studio/
RAWGraphs:https://rawgraphs.io/
工具交代了,接下来开始美化:
首先确定一下配色。
那我就随便确定了一下我这次的配色啦:
接下来,正式美化!
我以第一张关于15项变量指标的分布情况统计图为例给大家展示一下美化思路。
首先,我们先做了一张最基础的条形统计图。
这虽然能很好地呈现出分布情况和极值,但是平平无奇、方方正正,不太好看。
这张图可以以圆形面积来直观地呈现出各指标所占比例,且聚集在一起,比条形图更易于观察,但缺点是比较分散,无法进行视觉上的大小排序。
所以我们不妨将两张图结合到一起,就可以很好地综合各自的优缺点了。
这就是组合后的数据图,更加丰富地呈现了分布情况,而在视觉符号上,圆形矩形搭配,不会显得单调,相对来说就好很多啦。
但一定要注意的是:
一张完整的数据图应该附上“图名”、“数据来源”和“统计时间”,如果涉及到复杂算法或存在读图障碍时,还应添加“数据说明”。
囿于篇幅限制,故不再展示其它数据图的制作思路,大家可以参考以上制作思路进行设计。
分析升华加个精
从15项变量指标的分布情况来看,半数以上的参与者都选择了“好朋友”,这也说明了肖一的好友缘比较好(啧啧啧,分析不下去了...)。
其次,还有26人选择了“爸爸”一项。
在当下的社交语境中,这个亲属类称呼语意泛化的情况很突出。概括说来,一般存在两种用法,一是用于调侃打趣;二是用于某种性暗示。
那么在此处,想也不用想,肯定是第一种用法嘛~🌚
其实关于“爸爸”一词为何在社交场域上应用广泛,还有很大的讨论空间,但在此就不多赘述啦,再次强调这是一篇糊弄研究!
由于其他指标样本数量相对较小,故不再单独描述,而是通过不同类别进行整体性分类描述。
在“友情”“爱情”“其它”三大情感类别当中,有86名参与者选择了友情,其次是“其它”,最后是“爱情”。
由此可以看到,在“对肖一的情感倾向调查中”,绝大部分参与者倾向于和肖一成为朋友关系,仅有少数想进一步发展成“友达以上”的关系。(咦~)
此外,其它关系中,除了“爸爸”一项外,有10人选择了”徒弟”,说明还是有人想跟肖一学点东西滴。(hhh自恋鬼)
至于2项含有某种特殊意味的“仆从”指标,就权且当作有人误触了吧~
在概况描述后,为了进一步把握参与者对肖一的情感倾向,我构建了一个量表,旨在近似地描述参与者对肖一的情感倾向程度,并给予1-5的分值。
其中,选择1项的参与者被给予1分,选择2项的2分,依次类推,最高给予5分,故得到以下程度分布图:
由图可得,77%的参与者都得到了1分,仅有8%得到了5分。
从情感量表的角度来看,总体上来说,大部分参与者情感倾向程度较浅。不过也可能是参与者并不知道至多可以选择5个选项(嘴硬hhh)。
以上就是对数据图的简单描述了,但一篇成熟的数据新闻作品或是一个社会科学研究,还应上升到理论的高度,所以我们接下来用理论升华一下这个研究。
为什么朋友圈许多人对转发此类小游戏乐此不疲?
为什么会有很多人愿意参与到情感的表达游戏中?
为什么这个小游戏会设置付费偷看朋友点击结果的消费陷阱?
为什么肖一想要研究别人对他的情感取向和倾向程度?
其实一切都指向人在微信中的社会化生存,社交舞台上的大多数都渴望和他人连接,渴望被看到、渴望被关注。
人们就像舞台上的演员,用心在后台营造设计着自己的形象,期冀在前区向他人尽情展示自己精心打扮的一面。“拟剧”的戏码在社交场域上无时无刻不在上演。
此外,什么迷因啊、主客我啊、模仿理论之类的都可以用来解释这种社交行为,由于可深挖角度众多,并鉴于本研究极不成熟且糊弄,故不再赘述,感兴趣的旁友可以自行思考。
回顾反思莫忘记
比如我的这个糊弄研究,样本选择就很不规范,科学的抽样方法分为概率抽样和非概率抽样,还有多级整群抽样等,一定要审慎选择。
而我在情感倾向程度量表的构建也存在问题。比如没有保证所有参与者都知晓“至多可以选择5项指标”,由此导致倾向程度测量不准确,而且选择1项和选择5项真的存在程度差异吗?这也是个值得考虑的问题。
总而言之,科学因开诚而布公,因自我保护和欺骗受阻。
只有你把自己在做研究时的困难和问题和盘托出,才会对整个科学探索和数据新闻业的进步作出贡献。(嚯,没想到这才是真正的加精部分吧)
以上就是由糊弄大王肖一分享的非严肃非正式数据新闻制作指南啦,点击「阅读原文」依然可以参与到对肖一的情感取向调查当中哦。
此外,还有什么收获和建议也都可以在「评论区」跟我互动哈。
讲真的,你们不留言互动也不给我转转,我真的很受伤......🍵
END
参考资料 <<
[3]艾尔·巴比: 社会研究方法[M].邱泽奇 译.北京:华夏出版社,2018.
| N号房调查报道 | 霉霉侃爷录音曝光 | 詹青云被骂 |
| 离婚冷静期 | 网络舆情 | 研究生自杀 | 最美逆行者 |
策划
| 蒙牛伊利传闻 |
喜欢就点个在看吧,现在还可以点赞哦