小朋友的调研小游戏:从数据到洞察
因为疫情,小学提前放假。我们家小朋友非非这两天直接进入寒假放羊状态。周末有些时间,我就拉着非非一起做个调研小游戏。
大胆假设
我指着家里堆满一墙的书问非非:“你说这些书的定价都跟哪些因素有关?”
非非以前从没考虑过这问题。他是急性子,立即说:“书的内容好坏。”
“哦,内容好的书就贵,内容差的书就便宜?”
“对!”非非特别肯定。
面对要调研的问题,非非的确得了“大胆假设”派的真传。他这第一个假设似乎确实和书价有关,只不过关联性很难量化,还要考虑营销因素影响。比如,书商定价时,都恨不得把质量低劣的书统统包装成大受追捧的畅销书,定价上才不会让步呢。但,不着急评论小朋友的意见,且看他还能想出哪些假设来。
非非想到的第二个影响因素是“版权贵不贵”。他觉得,有些书要付作者很多版权费,自然定价就高,有些书的内容早已是公共领域资产,自然定价就低。这假设也不错,可惜一本书的版权成本及其对定价的影响过于复杂,不是我们坐在家里做个小调研可以搞明白的。所以这条也暂且不表——补充一句,非非能想到版权成本,这是因为我之前跟他聊过几次何为著作权,何为著作权期限,何为公共领域。
非非又想到“书的装订好不好”。小朋友嘴里的装订,大概包含了书的版式、开本、装帧形式、装帧档次等好几个指标。这确实是影响定价的关键因素。非非还指出, “书的厚度”可能也和定价有关。
我鼓励他从书架上随便抽几本书找找感觉,看还有没有其他发现。书架上有好几本书页焦黄的书,定价极其便宜,有一元几角的,有三角五角的。这些书为什么便宜?因为出版印刷得早呀!非非意识到,书的出版印刷年代当然也是影响定价的核心因素——他约略知道“通货膨胀”的说法,但道不清其中细节。为了让后面的调研更准确,我还让非非比较了“第某版”的年代和“第某次印刷”的年代之间的差异,同时确定,更加影响定价的其实是后者。
小心提案
用非非的语言,现在已得到“内容好坏”“版权贵不贵”“装订好坏”“厚度”“印刷年代”这五个假设。实际在家里做调研时,前三个不大好用。我引导非非,这次调研就只考虑书的厚度及印刷年代与定价间的关系。
厚度如何量化?做出版的人会立即想到“印张”的概念,但我不想花时间给小朋友做科普。就和非非讨论另外两种方案,一种是直接用版权页上标明的“字数”来代替厚度,另一种是直接用书的“页数”来代替厚度。非非觉得“页数”更直观易懂,但他自己也发现,如果考察页数对定价的影响,那最好就只比较类似大小的书。否则,像《新华字典》和《辞源》这类开本差别巨大的书,页数就算相差不大,定价也会大相径庭。
好了,非非自己的小调研方案基本成型:
找一大堆开本类似的书——我们找的都是32开或大32开的书;
记下每本书的印刷年代,页数,定价;
如果某书有上下册且定价是全价,那就记录上下册的总页数;
记录好所有数据,整理成表格;
根据表格,做出合适的图表,然后观察定价的影响因素。
快速实施
有了方案,赶紧行动。非非搬来梯子,爬上爬下地从书柜里搬出开本差不多的三四十本书来,全都堆到桌上。
收集数据需要流水线作业。非非扮演项目经理,安排我负责翻书报数据,他自己则负责用iPad录入。我们用iPad里的WPS创建电子表格。我报数,非非一行行录入数字。
得到的表格如下:
我跟非非讲,大人做这类调研时,常把这项工作称为“统计”。被调研的每本书也叫一个“样本”。针对每个样本,我们分别提取记录了“印刷年代”“页数”“定价”三个数据。根据这些数据找规律,有时也叫“建模”。要是用电脑自动根据这些数据来找规律,那就离今天常说的“人工智能”不太远了——可惜的是,非非似乎对大人世界里的这些事儿不太感兴趣,他完全沉浸在自己搬书,自己录入数据的简单快乐里。
仔细洞察
这个小调研涉及三种数据。印刷年代与定价相关,页数也与定价相关。小朋友多半不能一下子理解最有效的分析方法。但他们只要开始设想数据之间的关系,知道可以从数据表格创建图表,再从图表里总结规律,这就不简单了。
比如,非非以前用Excel做过柱状图。他就飞快地建议,我们应该做一个年代为轴,页数和价格为柱的图表。柱状图其实并不适合做有关数据分布的统计分析。按非非的计划,直接得到的图表差不多是这个样子:
我们从图中看到每个数据样本的页数、定价。因为以排序后的年代为轴,约略可以看出定价随年代增长的趋势,但不很明显,其中还有一本2003年的书因为厚重精良,定价直逼2011年以后的书。
Excel中的散布图更适合我们的调研任务。但我没跟非非细讲普通柱状图和散布图的区别。其实,只要给他看图示,他就能自己体会到散布图要表达的意思。比如,单把页数和价格抽出,分别作为坐标系的两轴,这样做出的散布图大概如下:
在散布图里,定价确实有随页数增加而提高的规律,但违背规律的样本也极多。这显然是印刷年代造成的干扰。不考虑通货膨胀因素,1980年代300页的书,和 2020年300页的书,价格相差可能有数十倍之多。
怎么更好地展示三种数据的关联呢?我问非非,“既然印刷年代和页数同时影响着定价,那我们是否需要在一张图表里将三个因素都表示出来?”
非非点头同意。于是,我向他介绍了WPS和Excel都可以绘制的气泡图。气泡图是散布图的一种,不仅可以在两个数据确定的坐标系里给出第三个数据的位置,还可以用对应位置上圆形气泡的尺寸来表示第三个数据的大小。
这气泡图显然直观了不少。非非很快就自己找到了读图的方法:横坐标是印刷年代,纵坐标是页数;通过纵横坐标交叉,可以找到对应年代和页数的每本书;每本书其实都是一个蓝色气泡,而气泡的大小正好对应于那本书的定价。
从这样的气泡图找规律也不太难。我让非非看下图中的黄色区域:
可以清楚看到,如果页数类似,定价随着年代演进,确实是越来越贵的。换种方式,如果看下图中的黄色区域:
也可以发现,当印刷年代相近,随着页数增多定价大趋势是越来越贵的。但这个方向上例外较多。非非想了想说,这说明年代对书的定价影响较大,页数对书的定价影响较小。我补充说,也不一定,这也许还在暗示,我们的调研漏掉了其他的重要影响因素。比如年代相近,页数差别很大的两个圆形为什么会大小相仿?那多半是因为页数较少的书在其他方面,比如在装帧上拥有更好的质量。
坚持调研
这样的调研小游戏玩起来不难,非非也很喜欢。疫情以来,我在家的时间比疫情前多些,就经常设计各类调研题目,让非非当游戏玩。比如:
有一次我让非非调研家里所有盆栽植物的叶子形状、叶片大小、叶子数量,并根据上面这三种数据对家里的植物进行分类;
另一次,我建议非非每次到停车场就试着采集一些数据,汇总后简单统计汽车品牌和汽车颜色之间的关系;
还有一次,我鼓励非非在他特爱玩的《塞尔达传说:荒野之息》游戏里,试着估算游戏里普通角色的总数有多少,每一类妖怪的总数各有多少……
这些调研小游戏各不相同,但基本都是小朋友自己感兴趣,愿意花时间去解决的问题。玩这些小游戏时,小朋友需要亲自动手,也必须结合他以前掌握的多种知识经验,并借助综合的思维方法来完成任务。
不过大家别误会,我鼓励我们家小朋友玩这类游戏可不是为了什么儿童教育的大目标。如果真说有什么目的,那也许是想让小朋友更多地体验这个世界吧。
为什么说这类游戏的目的不是教育呢?
我不想用这类游戏教小朋友学Excel,学WPS,要学应用软件就专门花时间学;
我也不是在用这类游戏教小朋友《统计学原理》,这种学科知识,未来他自然会在课堂里学到;
我更不是在用这类游戏让小朋友练习算术基本功,那还不如让他做算术习题卡;
我肯定也不是在用这类游戏培养小朋友敢于挑战、勇攀高峰的意志品质,那还不如带他去滑雪、爬山。
那我想通过这类游戏强调的是何种体验呢?
小朋友觉得好玩,这就是最好的体验了。如果小朋友不喜欢,那就算了。
小朋友未来无论做何种工作,大概都需要根据一个任务来提出假设,根据假设来设计方案,根据方案来规划执行——玩这类调研小游戏,体验的不就是这个世界里解决问题的基本思路吗?
这世界大概率是可以抽象成数字及数字间关系的。小朋友未来认识宇宙万物,多半会从收集数据,组织数据,分析数据,洞察数据的方法论里受益。玩这类调研小游戏,小朋友从小就不会对数字化生存太陌生,长大后,面对遍布了大数据和人工智能的世界,显然不会有怯场的道理。
以上全部,就是个简单总结。以后有时间,再介绍其他好玩的调研游戏。