统计学入门（4）：数据的类别、来源与质量

Original 黄宝荣语言科学漫谈 2024-03-25

在数据驱动的时代，统计学作为解读数据、发掘数据价值的重要工具，其重要性不言而喻。理解数据的本质、掌握数据的类别和来源，是进行高效统计分析的前提和基础。本文将深入浅出地介绍数据的定义、数据的主要类型、数据的来源以及确保数据质量的重要性和方法，为您提供一个全面、系统的数据知识框架。

1. 数据的类别

在统计学的世界里，数据是指对客观事件进行记录并可以鉴别的符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合，是人们认识世界、分析问题的基础。数据可以是定量的，也可以是定性的，其形式多样，包括数字、文字、图像等。统计数据通常可分为定类、定序、定距、定比数据，下文简要介绍下区别：

1.1 定类数据（Nominal Data）

定类数据是用于描述类别或名称的数据，其各个类别之间没有固定的顺序。例如，性别（男、女）、血型（A、B、AB、O）、国籍等。定类数据可以进行计数和模式的查找，但不能进行算术运算。

1.2 定序数据（Ordinal Data）

定序数据是既有类别也有顺序的数据，但各个类别之间的间隔不一定相等。例如，教育程度（小学、中学、高中、大学）、满意度评级（非常不满意、不满意、一般、满意、非常满意）等。定序数据除了可以进行计数和模式查找外，还可以进行排序，但不能进行加减乘除等算术运算。

1.3 定距数据（Interval Data）

定距数据是有固定间隔、无真正零点的数据。例如，温度（摄氏度或华氏度）、智商等。定距数据不仅可以进行计数、模式查找和排序，还可以进行加减运算，但不能进行乘除运算或计算比率。

1.4 定比数据（Ratio Data）

定比数据是有固定间隔且有真正零点的数据。例如，身高、体重、年龄、收入等。定比数据可以进行所有算术运算，包括加减乘除和计算比率。

了解这些数据类别对于选择适当的统计方法和数据分析工具非常重要。不同的数据类型需要不同的处理方式和分析方法。例如，对于定类数据，我们可能会使用频率分布表或卡方检验；而对于定比数据，我们可以使用均值、标准差和其他描述统计量。

2. 数据的来源

数据的来源广泛，按其获取方式主要分为两类：原始数据和二手数据。

2.1 原始数据

原始数据是直接从数据源收集的数据，未经过任何处理。这些数据通常更准确，更能反映实际情况，但获取成本较高。

2.1.1 实验

实验通常涉及到对研究对象施加某种干预或处理，并观察其对结果的影响。如何做实验是个复杂的话题，此处不做深入探讨。

例如，一个化学实验记录了不同温度下溶液的pH值：

温度（摄氏度）: 20, 25, 30, 35, 40

pH值: 7.1, 7.3, 7.6, 7.8, 8.0

2.1.2 观察

在数据收集和研究中，观察法是一种常见的方法，它涉及到直接或间接观察对象、事件或现象，以获取信息和洞察。

例如，一个生态学者在野外观察某种鸟类的筑巢行为，记录下了连续30天每天的筑巢数量。

2.1.3 调查

调查是一种通过询问一组选定的人员来收集数据和信息的方法。这种方法通常用于收集关于人们的意见、态度、行为和特性的数据。调查可以通过多种方式进行，如面对面访谈、电话访谈、邮寄问卷和在线问卷等。

例如，一个市场调研公司进行了一项关于消费者购物偏好的调查，询问了1000名消费者他们最喜欢的购物渠道。

2.2 二手数据

二手数据是指已经被其他个人或组织收集、处理过的数据。这类数据获取容易，但可能存在偏差，需要仔细评估其可靠性。以下是几类常见的二手数据来源：公共数据库、商业数据、社交媒体数据与政府报告。

2.2.1 公共数据库

例如，中国国家统计局的《数据》栏目，网址为http://www.stats.gov.cn/sj/，提供了大量统计数据、报告和公告，涵盖了经济、社会、环境等各个方面的信息，见图1。

图1 中国国家统计局

2.2.2 学术研究库

例如，PubMed Central (PMC)提供生物医学和生命科学领域的学术论文。arXiv提供预印本论文，让研究者能够在正式出版前分享他们的研究成果。数据共享平台（如Figshare、Zenodo）允许研究者存储、共享和发现各个学科的研究数据。

2.2.3 商业数据

例如，Factiva 提供了广泛的新闻和商业信息，涵盖了全球数千家媒体出版物；LexisNexis 提供法律、商业和新闻数据库服务，广泛用于法律研究、商业分析和新闻挖掘；Westlaw 提供了大量的法律文本、判例和其他相关信息；Gartner 提供了广泛的市场研究报告和分析，尤其专注于信息技术行业；Bloomberg Terminal 提供了全面的金融数据、分析工具和新闻，广泛应用于全球金融市场。

2.2.4 社交媒体数据

例如，通过API获取的新浪微博上的帖子数据，用于分析公众对某一事件的情感倾向；还有B站上的视频等。

2.2.5 政府报告

例如，中国国家统计局的国民经济运行情况，中国社会发展统计年报，中国的外交政策白皮书，中国的国防白皮书等。

3. 数据质量

确保数据的质量是统计分析成功的关键。数据质量可以从准确性、完整性、一致性、可靠性和及时性等方面来评估。

为了保证数据质量，我们可以采取以下措施：

3.1 数据清理

数据清理是指识别并纠正或删除数据中的错误或不一致，下面让我们来看一些例子：

3.1.1 缺失值处理

例如，在一组调查数据中，有些参与者没有填写年龄信息。你可以选择删除这些记录，或者用平均年龄、中位数或众数来填充缺失值。

3。1.2 异常值处理

例如，一家公司记录了过去一年的日销售数据。如果某一天的销售额是其他任何一天的10倍以上，这可能是录入错误，需要进一步调查或删除该数据点。

3.1.3 重复值处理

例如，在一份客户名单中，同一个客户可能被重复记录了多次。需要识别并删除这些重复记录，确保每个客户在名单中只出现一次。

3.1.4 文本数据的清理

在处理文本时，还有一些需要特别注意的地方，因为文本数据通常更容易受到输入错误、格式不一致或无关字符的影响。以下是一些文本数据清理的常见例子：

去除多余的空格：用户在填写表单时可能会在单词之间或句子的开始/结束处输入多余的空格。例如，"我喜欢学习 "应该被清理为"我喜欢学习"。

统一大小写：为了便于分析，通常需要将所有的文本数据转换为相同的大小写格式。例如，"Apple"、"apple"和"APPLE"应该统一成"apple"或"Apple"。

纠正拼写错误：文本数据中可能包含拼写错误，需要识别并纠正。例如，"recieve"应该被纠正为"receive"。

去除标点和特殊字符：在某些文本分析任务中，标点符号、特殊字符及某些词语可能不是必需的，可以将其去除。例如，停用词（Stop words）是指在文本中频繁出现但通常不承载主要意义，对于理解文本内容贡献不大的词语，如英文中的“is”、“the”、“and”等，中文中的“的”、“了”、“在”等，在进行文本分析前我们会将其去除。

处理缺失值：文本字段可能为空或包含缺失标记，如"NA"或"NULL"。需要决定如何处理这些缺失值，是删除它们、填充默认文本还是以其他方式处理。

去除或替换无意义的文字：某些文本可能包含对分析没有帮助的信息，如"未知"、"无"等，需要将其去除或替换。

文本切割和合并：有时，文本字段中可能包含多个信息，需要将其分割成单独的字段。反之，有时也需要将多个字段合并成一个文本字段。

处理不一致的数据格式：例如，日期和时间可能以不同的格式存在，需要统一成标准格式。

3.2 数据验证

数据验证是确保数据的准确性和一致性的过程，下面让我们来看一些例子，

3.2.1 范围检查

例如，一份调查表中有一个“年龄”字段。可以设置验证规则，确保输入的年龄在0到120之间，以排除明显的输入错误。

3.2.2 格式检查

例子：在一个在线表单中，用户需要输入他们的电子邮件地址。通过正则表达式验证，可以确保输入的电子邮件地址符合标准格式。

3.2.3 数据一致性检查

例子：一个电商网站的数据库中有商品价格和库存数量两个字段。如果某个商品的价格是负数或库存数量是负数，这显然是不一致的，需要进行修正。

3.2.4 文本数据的语义验证

对于文本数据，我们还需要做语义验证。语义验证涉及到对文本数据的意义和逻辑关系的检查，以确保文本内容在给定的上下文中是准确和有意义的，以下是一些例子：

拼写检查

使用拼写检查工具来识别文本中的拼写错误，对于专有名词或行业术语，可能需要自定义词典。

语法验证

使用语法分析工具检查句子结构，确保句子是语法正确的。例如，检查一些常见的语法错误，如主谓不一致、时态错误等。

上下文验证

确保文本内容在特定上下文中是有意义的。例如，在医疗领域，确保病例报告中的医学术语是准确并且适当使用的。

3.3 数据转换

数据转换是将数据从一种格式或单位转换为另一种格式或单位的过程，以下是一些例子：

3.3.1 单位转换

例如，一组科学实验记录了温度的数据，但一部分数据是以摄氏度记录的，另一部分是以华氏度记录的。为了分析这些数据，需要将所有温度数据转换为同一单位。

3.3.2 数据编码

例如，在一项医学研究中，病人的性别用“男”和“女”来记录。为了方便分析，需要将性别转换为二进制变量，例如，用0代表女性，1代表男性。

3.3.3 数据标准化

例如，一组数据包含了不同学校学生的考试成绩。由于不同学校的考试难度可能不同，需要对成绩进行标准化处理，以便在同一基础上进行比较。

3.4 数据审核

数据审核是对数据集进行全面检查，确保其准确性、完整性和一致性的过程，主要包括完整性检查、一致性检查、精确性检查。

3.4.1 完整性检查

例如，一个企业的员工数据库应该包含所有员工的完整信息。数据审核可以包括检查是否所有员工记录都完整，是否有缺失的关键信息，如员工ID、姓名或联系方式。

3.4.2 一致性检查

例如，在一家跨国公司的数据库中，员工的薪资可能以不同的货币记录。数据审核需要检查所有薪资记录是否按照统一的货币或汇率进行了一致性处理。

3.4.3 精确性检查

例如，在一个在线零售商的产品数据库中，每个产品应有一个唯一的产品ID。数据审核可以包括检查产品ID的唯一性，确保没有重复的产品ID。

本文探讨了数据的类别、来源和质量。不论是通过实验、观察、调查还是利用公共数据库、学术研究成果，我们尽可能获取所需的数据。请记住，数据清理、验证和备份等环节同样重要。掌握数据分析需要时间，敬请关注本系列后续文章！

继续滑动看下一个

语言科学漫谈

向上滑动看下一个

古树普洱茶山头直发，买茶别再花冤枉钱！

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

中国留学生在美国非法投票，后果很严重

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

恶魔医生刘翔峰判了，湘雅二院改好了吗？

统计学入门（4）：数据的类别、来源与质量

3.2.1 范围检查

3.2.2 格式检查

3.2.3 数据一致性检查

拼写检查

语法验证

上下文验证

3.3.1 单位转换

3.3.2 数据编码

3.3.3 数据标准化

3.4.1 完整性检查

3.4.2 一致性检查

3.4.3 精确性检查

您可能也对以下帖子感兴趣

古树普洱茶山头直发，买茶别再花冤枉钱！

19岁中国留学生投票被抓，“假装”公民身份！且已无法撤回.........

中国留学生在美国非法投票，后果很严重

19岁中国留学生非法投票美国大选，被控2罪！或被判15年监禁

恶魔医生刘翔峰判了，湘雅二院改好了吗？

生成图片，分享到微信朋友圈

统计学入门（4）：数据的类别、来源与质量

3.2.1 范围检查

3.2.2 格式检查

3.2.3 数据一致性检查

拼写检查

语法验证

上下文验证

3.3.1 单位转换

3.3.2 数据编码

3.3.3 数据标准化

3.4.1 完整性检查

3.4.2 一致性检查

3.4.3 精确性检查

您可能也对以下帖子感兴趣