查看原文
其他

议议粤教版第五章的大数据特征的缺失之一--真实性

陈鸥辉 信息科技时代 2024-03-15

之前吐槽了不使用信用卡消费:为什么不用信用卡呢?作为信用卡八年以上的使用者,一直认为信用卡跟银行卡一样安全,既然选择了存钱到银行,用银行卡消费与用信用卡消费本质上是一样的。

粤教版第五章的教材无疑是以一种非常专业的态度来编写的,尤其涉及到数据分析的部分,专业代码一段一段地丢出来,考虑到我校学生的实际水平以及知识递进的一个过程,所以在实际的教学中,我将教学内容是进行了大改造:从初识爬虫爬取数据-》到数据清洗与存储-》到数据分析及可视化展示三个层面进行了教学,也摈弃了项目式教学法,进行了任务驱动逐步逐层地递进式解决问题。

当然我们进行改过后的内容的专业性也是毫无疑问的,所以学生中仍然有大部分并不能真正理解代码,少数同学表现出了很大的兴趣。作为必修课程,教学期望目标并不高,让学生知道所以然,并能完整体验到数据爬取、清洗、存储及分析的整个过程,对于我来说,已经对得起这份专业的要求了。

但是昨晚,当我意外发现粤教版教材将大数据特征之一的真实性去掉之后,我感到非常震惊。为什么要说震惊呢?因为如果大数据本身并不具备真实性,那么基于大数据所进行的任何分析以及得出的结论都是毫无意义的,甚至是误导性的。没有真实性作为前提条件,可以说大数据的存在==毫无意义。


随后,我在几个群里提了这个问题,无一人能回答真实性为什么要从大数据的特征里被剔除。我搜了关于它的词汇解释,有些将这一点仍然保留甚至还多出了几点特征,有些也同样地将真实性去掉,仅仅留下以上四点特征。

既然已经讲到此,那么关于批判性思维的培养又何从谈起呢?所谓批判性思维首先是要有疑,才有质疑。无知或者说无法获得更多知识储备的前提下,谈批判谈质疑显然是空话。

好了,话说回来,为什么行程卡与健康码的置信度高呢?是因为它的数据来源是权威可信的,简单地说就是基于它的数据的收集的真实可靠性,才能让人相信这两个是可信的。推而广之,如果做基因分析,基因库里混杂着虚假基因数据,谁还敢去相信基于虚假数据的分析结果?所以不管是基于医疗、金融、生物研究等领域,所有的大数据分析都应基于真实数据信息,而不能混入虚假数据信息。

最后,再谈一下用户深受其扰的各大APP靠收集用户隐私无底线地进行推荐与投喂行为。至少在我这里是适得其反的,比如我刚刚在淘宝买完一本书,然后它不断地给我推荐类似的书对于我来说实际上已经失去意义,下单完成就表示某一行为的结束。而拼多多早已被我卸载,就是因为它不断地推荐我不需要的而它基于收集用户数据得到的以为我需要的。抖音就因为我看了一个马保国而不断给我推荐马保国的相关视频这种类似行为,最终导致我停留在看抖音的时间越来越少,我宁愿玩游戏,也无法接受同类信息的饱和式推荐……

大数据是个系统工程,从采集数据到计算到应用到决策有很长的流水线。如果采集数据阶段就出现真实性的缺陷,那么接下来的所有流程都是空谈。

所以说:如果大数据公司没有获取权威真实性数据的前提条件,那么它所鼓吹的大数据的分析价值也是大打折扣的,至于会不会因为网络信息本身的鱼龙混杂,而导致不少大数据公司最终成为一个新的科技泡沫,谁知道呢?

商榷|共同探讨知乎话题:现在流行的少儿编程是不是收智商税?

吐槽一下粤教版教材第四章的教学例题

普通高中信息技术新课程教材培训学后感

粤教版高中信息技术电子教材必修1:《数据与计算》

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存