查看原文
其他

如何糊弄出一篇数据新闻作品

肖一凉介 肖一凉介 2022-03-19

如题,这是一篇大家期待已久的数据新闻制作小指南,然而你目之所及的还有“糊弄”二字。

没错,更文不稳定到把自己越作越糊的肖一,今天只是来发点敷衍的东西凑这个月的KPI罢鸟~

话不多说,切入正题:


搞个选题第一步


干饭很简单,但干什么饭才令人头疼。
同理,做数据新闻不难,但做什么样的数据新闻就是个拧巴的故事了。

故事的开始,我豪情满怀,扬言要做一篇有深度、有广度、有创新度的数据新闻。

找个新冠肺炎主题?遍地都是。

聚焦热门综艺?都被做烂了。

研究性别平等?那还不如写论文投期刊。

......

正当我绞尽脑汁、不知所措的时候,我刷起了多姿多彩的朋友圈。

咦?怎么大家都在转这个:

然而就在我发出不屑之声的刹那,灵感迸发了。

就决定是你了,研究“肖一朋友圈好友对肖一的情感取向”!

点击文末「阅读原文」查看链接

没错,就是这么自恋 and 怪异的选题,喵~


概念不要忘了厘


在定好选题之后,不要急着开始操作,年轻人,要讲武德嘛。
既然研究“肖一朋友圈好友对肖一的情感取向”,那什么是情感取向?为什么选择朋友圈好友?又采取什么标准来衡量呢?

首先,“情感”一词为心理学用词。

百度百科一下,说情感是态度在生理上一种较复杂而又稳定的生理评价和体验。简而言之,就是包含爱恨情仇一类的态度嘛。

而取向则是选取的方向,也即你在情感上选择爱还是恨,还是嫉妒等。

其次,再来说说为什么选择朋友圈。

朋友圈是一种强关系的联接吧,不说每个人都很熟悉,但或多或少都会有联系,其中,大部分都是亲戚朋友老师同学。从这些对我有一定了解的人中,获取他们对我的情感取向显然对我来说更具有意义。

再次,关于衡量情感取向的标准。

由于本研究的调查设计源自这个不知其源的网站,故就直接采取其设定好的15个变量指标,即“爸爸,好朋友,闺蜜,基友,知己,宝贝,男朋友,死党,老公,女朋友,老婆,仆从,徒弟,臭弟弟,初恋”,作为衡量情感取向的标准。


研究方法要靠谱


这步就最省事啦,因为我采用了人别人现成的调查设计,那已经就是一个赤果果的调查问卷啦!

U1S1,原调查设计只设置了一个单一问题,简单是简单了点,不过我这个糊弄研究要的东西本来也不复杂啊。

所以这步可以直接跳过!


上手操作是正事


我严重怀疑我在水文,看到这里你就找到了证据。
没错,因为这步就更愚蠢了:简单把那条游戏链接转到朋友圈即可



但话说回来,当你在做一个正式研究的时候,「操作化」可是至关重要的。

因为它是决定如何收集你所需要的资料的,比如:直接观察、阅览官方文件、使用问卷或是运用诸如Python、SnowNLP等技术。

总之呢,不要因为我的糊弄让你觉得这步可有可无就好啦。


数据资料编好码


在整理数据之前,我们先对15项变量指标进行一个简单分类。
不过请注意,虽然有部分变量指标属于亲属类称呼,如“爸爸”,但基于语境变迁,我并不把其归为“亲情”类别,这个在后面会简单提到。

表1 分类情况表

收集到了数据,就要马上进一步处理啦。

我们先用EXCEL简单制个表,以表示“参与者”,以表示“不同情感取向”,根据不同参与者的选择进行赋值,“1”表示已选择,“0”表示未选择

表2 样本赋值

首先,依据上表,可以看到15项变量指标的统计结果分布各异,故统计出不同变量指标的赋值表:

表3 变量指标赋值

由于在原调查设计中,每人至多选择5项变量指标,因此参与者在参与调查时表现出的程度有所差异,即有的人可能只选择了一项,有的人选择了三项,还有的人选择了5项......

假定选择项数与情感倾向程度有关,那么则有理由建立以下量表:

表4 程度量表

通过以上量表的规定,我们再进一步得到了从1-5每一程度的样本分布,如图:

表5 样本分布

此外,我们还需要考虑参与者在对15项变量指标的选择中是否具有规律性。

例如选择了“知己”的是否还会选择“好朋友”,选择了“老公”或“老婆”是否还倾向于选择“男朋友”或“女朋友”。

为此,我把选择项数在两次以上的数据提取出来,并将赋值“1”标红,建立如下表格:

表6 样本赋值(项数 > 2)

由上表可得,并未有一项变量指标的赋值呈规律分布,因此证明参与者在选取变量指标时具有主观随意性,故可以不考察参与者在对15项变量指标的选择中是否具有规律性。


再给数据化个妆


上一步骤只是我们对收集到的数据的分析过程,做的图也都是草图,所以这一步需要把最终呈现在最终作品里的图摘出来,也即:
「 表1、表3、表4、表5 

但这几张表格显然是太简单死板了,故我们得对其进行美化。

至于美化工具呢,个人比较喜欢用这两兄弟啦:

在后台发送「Adobe」即可领取安装包


当然,随着数据新闻业的日益发展,网络上已经多了很多现成的数据图表生成网站了,给大家推荐几个:

  1. 百度图说:https://tushuo.baidu.com

  2. BDP:https://me.bdp.cn/login.html?lang=zh

  3. 花火Hanabi:https://hanabi.data-viz.cn/templates?lang=zh-CN

  4. 镝数图表:https://dycharts.com/appv2/#/pages/home/info-template

  5. PlotDB:https://plotdb.com/

  6. Flourish:https://flourish.studio/

  7. RAWGraphs:https://rawgraphs.io/

工具交代了,接下来开始美化:

首先确定一下配色。

这个步骤极其随意,以你的审美为准。在此又给大家推荐一个可以自行创建配色方案的网站 Colorpicker

网址:http://tristen.ca/hcl-picker/#/hlc/6/0.93/2B180A/F0EE70

那我就随便确定了一下我这次的配色啦:



接下来,正式美化!

我以第一张关于15项变量指标的分布情况统计图为例给大家展示一下美化思路。

首先,我们先做了一张最基础的条形统计图。

这虽然能很好地呈现出分布情况和极值,但是平平无奇、方方正正,不太好看。



我们再来看另一张图,这是一张气泡图。

这张图可以以圆形面积来直观地呈现出各指标所占比例,且聚集在一起,比条形图更易于观察,但缺点是比较分散,无法进行视觉上的大小排序。

所以我们不妨将两张图结合到一起,就可以很好地综合各自的优缺点了。

这就是组合后的数据图,更加丰富地呈现了分布情况,而在视觉符号上,圆形矩形搭配,不会显得单调,相对来说就好很多啦。

但一定要注意的是:

一张完整的数据图应该附上“图名”、“数据来源”和“统计时间”,如果涉及到复杂算法或存在读图障碍时,还应添加“数据说明”。

囿于篇幅限制,故不再展示其它数据图的制作思路,大家可以参考以上制作思路进行设计。


分析升华加个精


在得到最终形成的数据图后,就要开始进入重要的分析步骤了。
以下简单示例:

从15项变量指标的分布情况来看,半数以上的参与者都选择了“好朋友”,这也说明了肖一的好友缘比较好(啧啧啧,分析不下去了...)。

其次,还有26人选择了“爸爸”一项。

在当下的社交语境中,这个亲属类称呼语意泛化的情况很突出。概括说来,一般存在两种用法,一是用于调侃打趣;二是用于某种性暗示。

那么在此处,想也不用想,肯定是第一种用法嘛~🌚

其实关于“爸爸”一词为何在社交场域上应用广泛,还有很大的讨论空间,但在此就不多赘述啦,再次强调这是一篇糊弄研究!

由于其他指标样本数量相对较小,故不再单独描述,而是通过不同类别进行整体性分类描述。

在“友情”“爱情”“其它”三大情感类别当中,有86名参与者选择了友情,其次是“其它”,最后是“爱情”。

由此可以看到,在“对肖一的情感倾向调查中”,绝大部分参与者倾向于和肖一成为朋友关系,仅有少数想进一步发展成“友达以上”的关系。(咦~)

此外,其它关系中,除了“爸爸”一项外,有10人选择了”徒弟”,说明还是有人想跟肖一学点东西滴。(hhh自恋鬼)

至于2项含有某种特殊意味的“仆从”指标,就权且当作有人误触了吧~

在概况描述后,为了进一步把握参与者对肖一的情感倾向,我构建了一个量表,旨在近似地描述参与者对肖一的情感倾向程度,并给予1-5的分值

其中,选择1项的参与者被给予1分,选择2项的2分,依次类推,最高给予5分,故得到以下程度分布图:

由图可得,77%的参与者都得到了1分,仅有8%得到了5分。

从情感量表的角度来看,总体上来说,大部分参与者情感倾向程度较浅。不过也可能是参与者并不知道至多可以选择5个选项(嘴硬hhh)。

以上就是对数据图的简单描述了,但一篇成熟的数据新闻作品或是一个社会科学研究,还应上升到理论的高度,所以我们接下来用理论升华一下这个研究。

为什么朋友圈许多人对转发此类小游戏乐此不疲?

为什么会有很多人愿意参与到情感的表达游戏中?

为什么这个小游戏会设置付费偷看朋友点击结果的消费陷阱?

为什么肖一想要研究别人对他的情感取向和倾向程度?

其实一切都指向人在微信中的社会化生存,社交舞台上的大多数都渴望和他人连接,渴望被看到、渴望被关注。

人们就像舞台上的演员,用心在后台营造设计着自己的形象,期冀在前区向他人尽情展示自己精心打扮的一面。“拟剧”的戏码在社交场域上无时无刻不在上演。

此外,什么迷因啊、主客我啊、模仿理论之类的都可以用来解释这种社交行为,由于可深挖角度众多,并鉴于本研究极不成熟且糊弄,故不再赘述,感兴趣的旁友可以自行思考。


回顾反思莫忘记


最后的结语部分呢,就一定要注意要有严谨的不足和建议分析哦
因为一篇成熟的数据新闻作品其实就相当于一个社会科学研究,既然是研究,你的作品不仅需要对读者负责,还需要对同行负责。

比如我的这个糊弄研究,样本选择就很不规范,科学的抽样方法分为概率抽样和非概率抽样,还有多级整群抽样等,一定要审慎选择。

而我在情感倾向程度量表的构建也存在问题。比如没有保证所有参与者都知晓“至多可以选择5项指标”,由此导致倾向程度测量不准确,而且选择1项和选择5项真的存在程度差异吗?这也是个值得考虑的问题。

总而言之,科学因开诚而布公,因自我保护和欺骗受阻。

只有你把自己在做研究时的困难和问题和盘托出,才会对整个科学探索和数据新闻业的进步作出贡献。(嚯,没想到这才是真正的加精部分吧)

以上就是由糊弄大王肖一分享的非严肃非正式数据新闻制作指南啦,点击「阅读原文」依然可以参与到对肖一的情感取向调查当中哦。

此外,还有什么收获和建议也都可以在「评论区」跟我互动哈。

讲真的,你们不留言互动也不给我转转,我真的很受伤......🍵


END



 


参考资料 <<


[1]http://372.zhitiaomi.cn/index2.php?m=Wap&com=User&c=Impression&a=index&token=bbtwcn1494382441&wallId=oLBDO5jYq0sHSmozxLL0Rf35RqzM&amu=683663852[2]士气与管理——士气心理学. 百度阅读

[3]艾尔·巴比: 社会研究方法[M].邱泽奇 译.北京:华夏出版社,2018.


—添加星标—
—往期精选—

杂谈
| Tik Tok之死 | 杨丽萍争议 | B站《后浪》
| 罗志祥性丑闻  | 青春有你2 | 罗永浩直播 | 

| N号房调查报道 | 霉霉侃爷录音曝光 | 詹青云被骂 | 

干货
| 大选头版 | 信息茧房 | 新闻业趋势 | 中传20教改 | 
| 诗词话新传 | 英语方法经 | 专业课经验贴 | 
19爆文复盘 | 娱乐向短视频 |
数说

| 离婚冷静期 | 网络舆情 | 研究生自杀 | 最美逆行者 | 

| 新冠肺炎 | 2020学界动态 | 中国传媒大学 | 

| 高考作弊案件 | 乘风破浪的姐姐 

| 普利策新闻奖 高管被控性侵案 |

策划

疫情下的毕业生 | 考研回忆录 | 特朗普败选 |
寻真

蒙牛伊利传闻 |


喜欢就点个在看吧,现在还可以点赞哦

 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存