如何糊弄出一篇数据新闻作品

Original 肖一凉介肖一凉介 2022-03-19

收录于话题

#肖一数说 22 个

#可视化分享 3 个

如题，这是一篇大家期待已久的数据新闻制作小指南，然而你目之所及的还有“糊弄”二字。

没错，更文不稳定到把自己越作越糊的肖一，今天只是来发点敷衍的东西凑这个月的KPI罢鸟～

话不多说，切入正题：

搞个选题第一步

干饭很简单，但干什么饭才令人头疼。

同理，做数据新闻不难，但做什么样的数据新闻就是个拧巴的故事了。

故事的开始，我豪情满怀，扬言要做一篇有深度、有广度、有创新度的数据新闻。

找个新冠肺炎主题？遍地都是。

聚焦热门综艺？都被做烂了。

研究性别平等？那还不如写论文投期刊。

......

正当我绞尽脑汁、不知所措的时候，我刷起了多姿多彩的朋友圈。

咦？怎么大家都在转这个：

然而就在我发出不屑之声的刹那，灵感迸发了。

就决定是你了，研究“肖一朋友圈好友对肖一的情感取向”！

点击文末「阅读原文」查看链接

没错，就是这么自恋 and 怪异的选题，喵～

概念不要忘了厘

在定好选题之后，不要急着开始操作，年轻人，要讲武德嘛。

既然研究“肖一朋友圈好友对肖一的情感取向”，那什么是情感取向？为什么选择朋友圈好友？又采取什么标准来衡量呢？

首先，“情感”一词为心理学用词。

百度百科一下，说情感是态度在生理上一种较复杂而又稳定的生理评价和体验。简而言之，就是包含爱恨情仇一类的态度嘛。

而取向则是选取的方向，也即你在情感上选择爱还是恨，还是嫉妒等。

其次，再来说说为什么选择朋友圈。

朋友圈是一种强关系的联接吧，不说每个人都很熟悉，但或多或少都会有联系，其中，大部分都是亲戚朋友老师同学。从这些对我有一定了解的人中，获取他们对我的情感取向显然对我来说更具有意义。

再次，关于衡量情感取向的标准。

由于本研究的调查设计源自这个不知其源的网站，故就直接采取其设定好的15个变量指标，即“爸爸，好朋友，闺蜜，基友，知己，宝贝，男朋友，死党，老公，女朋友，老婆，仆从，徒弟，臭弟弟，初恋”，作为衡量情感取向的标准。

研究方法要靠谱

这步就最省事啦，因为我采用了人别人现成的调查设计，那已经就是一个赤果果的调查问卷啦！

U1S1，原调查设计只设置了一个单一问题，简单是简单了点，不过我这个糊弄研究要的东西本来也不复杂啊。

所以这步可以直接跳过！

上手操作是正事

我严重怀疑我在水文，看到这里你就找到了证据。

没错，因为这步就更愚蠢了：简单把那条游戏链接转到朋友圈即可。

但话说回来，当你在做一个正式研究的时候，「操作化」可是至关重要的。

因为它是决定如何收集你所需要的资料的，比如：直接观察、阅览官方文件、使用问卷或是运用诸如Python、SnowNLP等技术。

总之呢，不要因为我的糊弄让你觉得这步可有可无就好啦。

数据资料编好码

在整理数据之前，我们先对15项变量指标进行一个简单分类。

不过请注意，虽然有部分变量指标属于亲属类称呼，如“爸爸”，但基于语境变迁，我并不把其归为“亲情”类别，这个在后面会简单提到。

表1 分类情况表

收集到了数据，就要马上进一步处理啦。

我们先用EXCEL简单制个表，以行表示“参与者”，以列表示“不同情感取向”，根据不同参与者的选择进行赋值，“1”表示已选择，“0”表示未选择。

表2 样本赋值

首先，依据上表，可以看到15项变量指标的统计结果分布各异，故统计出不同变量指标的赋值表：

表3 变量指标赋值

由于在原调查设计中，每人至多选择5项变量指标，因此参与者在参与调查时表现出的程度有所差异，即有的人可能只选择了一项，有的人选择了三项，还有的人选择了5项......

假定选择项数与情感倾向程度有关，那么则有理由建立以下量表：

表4 程度量表

通过以上量表的规定，我们再进一步得到了从1-5每一程度的样本分布，如图：

表5 样本分布

此外，我们还需要考虑参与者在对15项变量指标的选择中是否具有规律性。

例如选择了“知己”的是否还会选择“好朋友”，选择了“老公”或“老婆”是否还倾向于选择“男朋友”或“女朋友”。

为此，我把选择项数在两次以上的数据提取出来，并将赋值“1”标红，建立如下表格：

表6 样本赋值（项数 > 2）

由上表可得，并未有一项变量指标的赋值呈规律分布，因此证明参与者在选取变量指标时具有主观随意性，故可以不考察参与者在对15项变量指标的选择中是否具有规律性。

再给数据化个妆

上一步骤只是我们对收集到的数据的分析过程，做的图也都是草图，所以这一步需要把最终呈现在最终作品里的图摘出来，也即:

「表1、表3、表4、表5 」

但这几张表格显然是太简单死板了，故我们得对其进行美化。

至于美化工具呢，个人比较喜欢用这两兄弟啦：

在后台发送「Adobe」即可领取安装包

当然，随着数据新闻业的日益发展，网络上已经多了很多现成的数据图表生成网站了，给大家推荐几个：

百度图说：https://tushuo.baidu.com
BDP：https://me.bdp.cn/login.html?lang=zh
花火Hanabi：https://hanabi.data-viz.cn/templates?lang=zh-CN
镝数图表：https://dycharts.com/appv2/#/pages/home/info-template
PlotDB：https://plotdb.com/
Flourish：https://flourish.studio/
RAWGraphs：https://rawgraphs.io/

工具交代了，接下来开始美化：

首先确定一下配色。

这个步骤极其随意，以你的审美为准。在此又给大家推荐一个可以自行创建配色方案的网站 Colorpicker：

网址：http://tristen.ca/hcl-picker/#/hlc/6/0.93/2B180A/F0EE70

那我就随便确定了一下我这次的配色啦：

接下来，正式美化！

我以第一张关于15项变量指标的分布情况统计图为例给大家展示一下美化思路。

首先，我们先做了一张最基础的条形统计图。

这虽然能很好地呈现出分布情况和极值，但是平平无奇、方方正正，不太好看。

我们再来看另一张图，这是一张气泡图。

这张图可以以圆形面积来直观地呈现出各指标所占比例，且聚集在一起，比条形图更易于观察，但缺点是比较分散，无法进行视觉上的大小排序。

所以我们不妨将两张图结合到一起，就可以很好地综合各自的优缺点了。

这就是组合后的数据图，更加丰富地呈现了分布情况，而在视觉符号上，圆形矩形搭配，不会显得单调，相对来说就好很多啦。

但一定要注意的是：

一张完整的数据图应该附上“图名”、“数据来源”和“统计时间”，如果涉及到复杂算法或存在读图障碍时，还应添加“数据说明”。

囿于篇幅限制，故不再展示其它数据图的制作思路，大家可以参考以上制作思路进行设计。

分析升华加个精

在得到最终形成的数据图后，就要开始进入重要的分析步骤了。

以下简单示例：

从15项变量指标的分布情况来看，半数以上的参与者都选择了“好朋友”，这也说明了肖一的好友缘比较好（啧啧啧，分析不下去了...）。

其次，还有26人选择了“爸爸”一项。

在当下的社交语境中，这个亲属类称呼语意泛化的情况很突出。概括说来，一般存在两种用法，一是用于调侃打趣；二是用于某种性暗示。

那么在此处，想也不用想，肯定是第一种用法嘛～🌚

其实关于“爸爸”一词为何在社交场域上应用广泛，还有很大的讨论空间，但在此就不多赘述啦，再次强调这是一篇糊弄研究！

由于其他指标样本数量相对较小，故不再单独描述，而是通过不同类别进行整体性分类描述。

在“友情”“爱情”“其它”三大情感类别当中，有86名参与者选择了友情，其次是“其它”，最后是“爱情”。

由此可以看到，在“对肖一的情感倾向调查中”，绝大部分参与者倾向于和肖一成为朋友关系，仅有少数想进一步发展成“友达以上”的关系。（咦~）

此外，其它关系中，除了“爸爸”一项外，有10人选择了”徒弟”，说明还是有人想跟肖一学点东西滴。（hhh自恋鬼）

至于2项含有某种特殊意味的“仆从”指标，就权且当作有人误触了吧～

在概况描述后，为了进一步把握参与者对肖一的情感倾向，我构建了一个量表，旨在近似地描述参与者对肖一的情感倾向程度，并给予1-5的分值。

其中，选择1项的参与者被给予1分，选择2项的2分，依次类推，最高给予5分，故得到以下程度分布图：

由图可得，77%的参与者都得到了1分，仅有8%得到了5分。

从情感量表的角度来看，总体上来说，大部分参与者情感倾向程度较浅。不过也可能是参与者并不知道至多可以选择5个选项（嘴硬hhh）。

以上就是对数据图的简单描述了，但一篇成熟的数据新闻作品或是一个社会科学研究，还应上升到理论的高度，所以我们接下来用理论升华一下这个研究。

为什么朋友圈许多人对转发此类小游戏乐此不疲？

为什么会有很多人愿意参与到情感的表达游戏中？

为什么这个小游戏会设置付费偷看朋友点击结果的消费陷阱?

为什么肖一想要研究别人对他的情感取向和倾向程度？

其实一切都指向人在微信中的社会化生存，社交舞台上的大多数都渴望和他人连接，渴望被看到、渴望被关注。

人们就像舞台上的演员，用心在后台营造设计着自己的形象，期冀在前区向他人尽情展示自己精心打扮的一面。“拟剧”的戏码在社交场域上无时无刻不在上演。

此外，什么迷因啊、主客我啊、模仿理论之类的都可以用来解释这种社交行为，由于可深挖角度众多，并鉴于本研究极不成熟且糊弄，故不再赘述，感兴趣的旁友可以自行思考。

回顾反思莫忘记

最后的结语部分呢，就一定要注意要有严谨的不足和建议分析哦。

因为一篇成熟的数据新闻作品其实就相当于一个社会科学研究，既然是研究，你的作品不仅需要对读者负责，还需要对同行负责。

比如我的这个糊弄研究，样本选择就很不规范，科学的抽样方法分为概率抽样和非概率抽样，还有多级整群抽样等，一定要审慎选择。

而我在情感倾向程度量表的构建也存在问题。比如没有保证所有参与者都知晓“至多可以选择5项指标”，由此导致倾向程度测量不准确，而且选择1项和选择5项真的存在程度差异吗？这也是个值得考虑的问题。

总而言之，科学因开诚而布公，因自我保护和欺骗受阻。

只有你把自己在做研究时的困难和问题和盘托出，才会对整个科学探索和数据新闻业的进步作出贡献。（嚯，没想到这才是真正的加精部分吧）

以上就是由糊弄大王肖一分享的非严肃非正式数据新闻制作指南啦，点击「阅读原文」依然可以参与到对肖一的情感取向调查当中哦。

此外，还有什么收获和建议也都可以在「评论区」跟我互动哈。

讲真的，你们不留言互动也不给我转转，我真的很受伤......🍵

END

参考资料 <<

[1]http://372.zhitiaomi.cn/index2.php?m=Wap&com=User&c=Impression&a=index&token=bbtwcn1494382441&wallId=oLBDO5jYq0sHSmozxLL0Rf35RqzM&amu=683663852[2]士气与管理——士气心理学. 百度阅读

[3]艾尔·巴比: 社会研究方法[M].邱泽奇译.北京:华夏出版社,2018.

—添加星标—

—往期精选—

杂谈

| Tik Tok之死 | 杨丽萍争议 | B站《后浪》|

| 罗志祥性丑闻 | 青春有你2 | 罗永浩直播 |

| N号房调查报道 | 霉霉侃爷录音曝光 | 詹青云被骂 |

干货

| 诗词话新传 | 英语方法经 | 专业课经验贴 |

| 19爆文复盘 | 娱乐向短视频 |

数说

| 新冠肺炎 | 2020学界动态 | 中国传媒大学 |

| 高考作弊案件 | 乘风破浪的姐姐 |

| 普利策新闻奖 | 高管被控性侵案 |

策划

| 疫情下的毕业生 | 考研回忆录 | 特朗普败选 |

寻真

| 蒙牛伊利传闻 |

喜欢就点个在看吧，现在还可以点赞哦

中美友好合作故事——十万名中国弃婴长大了

不仅要看已抓谁，还须一直抓到没

和范爷分手5年后 , 李晨深夜发文高调宣布好消息 , 终于摆脱了困境！

我亲历的东航MU583空难，迫降被俄罗斯拒绝，美国空军基地伸出援手 | 二湘空间

急！深陷困境的她们，恳请大家伸出援助之手共渡难关！！

如何糊弄出一篇数据新闻作品

您可能也对以下帖子感兴趣

中美友好合作故事——十万名中国弃婴长大了

不仅要看已抓谁，还须一直抓到没

和范爷分手5年后 , 李晨深夜发文高调宣布好消息 , 终于摆脱了困境！

我亲历的东航MU583空难，迫降被俄罗斯拒绝，美国空军基地伸出援手 | 二湘空间

急！深陷困境的她们，恳请大家伸出援助之手共渡难关！！

生成图片，分享到微信朋友圈

如何糊弄出一篇数据新闻作品

您可能也对以下帖子感兴趣