用Python玩转统计数据：取样、计算相关性、拆分训练模型和测试

查看原文

其他

用Python玩转统计数据：取样、计算相关性、拆分训练模型和测试

Original: Tomasz Drabas 大数据 2019-06-23

导读：本文会介绍一些技术，帮你更好地理解数据，以及探索特征之间的关系。

本文使用Python建立对数据的理解。我们会分析变量的分布，捋清特征之间的关系。最后，你会学习给样本分层，并将数据集拆分成测试集与训练集。

作者：托马兹·卓巴斯（Tomasz Drabas）

如需转载请联系大数据（ID：hzdashuju）

01 生成描述性的统计数据

要完全理解任何随机变量的分布，我们需要知道其平均数与标准差、最小值与最大值、中位数、四分位数、偏度和峰度。

1. 准备

要实践本技巧，你只需装好pandas模块。此外没有要求了。

2. 怎么做

下面的代码可以快速达成对数据的初步理解。假设数据已从CSV文件读出，并存于csv_read变量（data_describe.py文件）中：

csv_desc = csv_read[
[
'beds', 'baths', 'sq_tf', 'price', 's_price',
'n_price', 's_sq__ft', 'n_sq__ft', 'b_price',
'p_price', 'd_Condo', 'd_Multi-Family',
'd_Residential', 'd_Unkown'
]
].describe().transpose()
# 加上偏度，众数与峰度
csv_desc['skew'] = csv_read.skew(numeric_only=True)
csv_desc['mode'] = csv_read.mode(numeric_only=True).transpose()
csv_desc['kurtosis'] = csv_read.kurt(numeric_only=True)

3. 原理

pandas有个很管用的.describe()方法，它替我们做了大部分的工作。这个方法能生成我们想要的大部分描述变量；输出看起来是这样的（为清晰做了相应简化）：

beds
count 981.000000
mean 2.914373
std 1.306502
min 0.000000
25% 2.000000
50% 3.000000
75% 4.000000
max 8.000000

DataFrame对象的索引标明了描述性统计数据的名字，每一列代表我们数据集中一个特定的变量。不过，我们还缺偏度、峰度和众数。为了更方便地加入csv_desc变量，我们使用.transpose()移项了.describe()方法的输出结果，使得变量放在索引里，每一列代表描述性的变量。

你也可以手动计算平均数、标准差及其他描述性的统计数据。可用的方法列表见：
http://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-stats

有了基础的统计数据，我们可以补上其他的。要留意的是，.skew(...)和.kurt(...)方法以类似的格式返回数据，而.mode(...)不然；.mode(...)方法返回的数据要进行调整，以便和.describe()方法的输出格式保持一致。

4. 更多

描述性的统计数据也可用SciPy和NumPy计算得到。当然，比起pandas来不那么直观（data_describe_alternative.py文件）。

首先加载两个模块。

import scipy.stats as st
import bumpy as np

然后从CSV文件读取数据：

r_filenameCSV = '../../Data/Chapter02/' + 'realEstate_trans_full.csv'
csv_read = np.genfromtxt(
r_filenameCSV,
delimiter=',',
names=True,
# 只有数字列
usecols=[4,5,6,8,11,12,13,14,15,16,17,18,19,20]
)

.genfromtxt(...)方法以文件名作为第一个（也是唯一必需的）参数。指定分隔符是一个好做法；本例中分隔符是','，也可以是\t。names参数指定为True，意味着变量名存于第一行。最后，usecols参数指定文件中哪些列要存进csv_read对象。

最终可以计算出要求的数据：

.genfromtxt(...)方法创建的数据是一系列元组。.describe(...)方法只接受列表形式的数据，所以得先（使用列表表达式）将每个元组转换成列表。

这个方法的输出可以说对用户不太友好：

5. 参考

查阅SciPy中的文档，了解所有统计函数：
http://docs.scipy.org/doc/scipy/reference/stats.html#statistical-functions

02 探索特征之间的相关性

两个变量之间的相关系数用来衡量它们之间的关系。系数为1，我们可以说这两个变量完全相关；系数为-1，我们可以说第二个变量与第一个变量完全负相关；系数0意味着两者之间不存在可度量的关系。

这里要强调一个基础事实：不能因为两个变量是相关的，就说两者之间存在因果关系。

要了解更多，可访问：
https://web.cn.edu/kwheeler/logic_causation.html

1. 准备

要实践本技巧，你要先装好pandas模块。此外没有要求了。

2. 怎么做

我们将测算公寓的卧室数目、浴室数目、楼板面积与价格之间的相关性。再一次，我们假设数据已经在csv_read对象中了。下面是代码（data_correlations.py文件）：

# 计算相关性
coefficients = ['pearson', 'kendall', 'spearman']
csv_corr = {}
for coefficient in coefficients:
csv_corr[coefficient] = csv_read.corr(method=coefficient).transpose()

3. 原理

pandas可用于计算三种相关度：皮尔逊积矩相关系数、肯达尔等级相关系数和斯皮尔曼等级相关系数。后两者对于非正态分布的随机变量并不是很敏感。

我们计算这三种相关系数，并且将结果存在csv_corr变量中。DataFrame对象csv_read调用了.corr(...)方法，唯一要指定的参数是要使用的计算方法。结果如下所示：

4. 参考

你也可以使用NumPy计算皮尔逊相关系数：
http://docs.scipy.org/doc/numpy/reference/generated/numpy.corrcoef.html

03 数据取样

有时候数据集过大，不方便建立模型。出于实用的考虑（不要让模型的估计没有个尽头），最好从完整的数据集中取出一些分层样本。

本文从MongoDB读取数据，用Python取样。

1. 准备

要实践本技巧，你需要PyMongo、pandas和NumPy。其他没有什么要准备的。

2. 怎么做

有两种做法：确定一个抽样的比例（比如说，20%），或者确定要取出的记录条数。下面的代码展示了如何提取一定比例的数据（data_sampling.py文件）：

strata_frac = 0.2
client = pymongo.MongoClient()
db = client['packt']
real_estate = db['real_estate']
# 读取数据
sales = pd.DataFrame.from_dict(
list( real_estate.find(
{'beds': {'$in': [2, 3, 4]} },
{'_id': 0, 'zip': 1, 'city': 1, 'price': 1, 'beds': 1, 'sq__ft': 1}
)
)
)
# 取样
sample = pd.DataFrame()
for bed in [2, 3, 4]:
sample = sample.append(
sales[sales.beds == bed].sample(frac=strata_frac),
ignore_index=True
)

3. 原理

首先确定取样的比例，即strata_frac变量。从MongoDB取出数据。MongoDB返回的是一个字典。pandas的.from_dict(...)方法生成一个DataFrame对象，这样处理起来更方便。

要获取数据集中的一个子集，pandas的.sample(...)方法是一个很方便的途径。不过这里还是有一个陷阱：所有的观测值被选出的概率相同，可能我们得到的样本中，变量的分布并不能代表整个数据集。

在这个简单的例子中，为了避免前面的陷阱，我们遍历卧室数目的取值，用.sample(...)方法从这个子集中取出一个样本。我们可以指定frac参数，以返回数据集子集（卧室数目）的一部分。

我们还使用了DataFrame的.append(...)方法：有一个DataFrame对象（例子中的sample），将另一个DataFrame附加到这一个已有的记录后面。ignore_index参数设为True时，会忽略附加DataFrame的索引值，并沿用原有DataFrame的索引值。

4. 更多

有时，你会希望指定抽样的数目，而不是占原数据集的比例。之前说过，pandas的 .sample(...)方法也能很好地处理这种场景（data_sampling_alternative.py文件）。

首先，我们指定要从原数据集中抽样的记录数目：

strata_cnt = 200

要保持不同卧室数目的取值比例与原数据集一致，我们首先计算每个桶中该放的记录数：

ttl_cnt = sales['beds'].count()
strata_expected_counts = sales['beds'].value_counts() / ttl_cnt * strata_cnt

DataFrame的.count()方法会计算整个数据集中的总数目。然后，我们可以分别计算出各卧室数目下的比例，乘上strata_cnt变量，就得到了各自的记录条数。.value_counts()方法返回的是指定列（例子中的beds）中，每个值的数目。然后将数据集中每条记录除以ttl_cnt再乘以想要的样本大小。

抽样可以使用.sample(...)方法。不过，我们这次不指定frac参数了，而是指定要提取的记录数n：

for bed in beds:
sample = sample.append(
sales[sales.beds == bed] \
.sample(n=np.round(strata_expected_counts[bed])),
ignore_index=True
)

04 将数据集拆分成训练集、交叉验证集和测试集

要建立一个可信的统计模型，我们需要确信它精确地抽象出了我们要处理的现象。要获得这个保证，我们需要测试模型。要保证精确度，我们训练和测试不能用同样的数据集。

本技法中，你会学到如何将你的数据集快速分成两个子集：一个用来训练模型，另一个用来测试。

1. 准备

要实践本技巧，你需要pandas、SQLAlchemy和NumPy。其他没有什么要准备的。

2. 怎么做

我们从PostgreSQL数据库读出数据，存到DataFrame里。通常我们划出20%～40%的数据用于测试。本例中，我们选出1/3的数据（data_split.py文件）：

# 指定用于测试的数据比例
test_size = 0.33
# 输出样本的文件名
w_filenameTrain = '../../Data/Chapter02/realEstate_train.csv'
w_filenameTest = '../../Data/Chapter02/realEstate_test.csv'
# 用一个变量标记训练样本
data['train'] = np.random.rand(len(data)) < (1 - test_size)
# 区分训练集和测试集
train = data[data.train]
test = data[~data.train]

3. 原理

我们从指定划分数据的比例与存储数据的位置开始：两个存放训练集和测试集的文件。

我们希望随机选择测试数据。这里，我们使用NumPy的伪随机数生成器。.rand(...)方法生成指定长度（len(data)）的随机数的列表。生成的随机数在0和1之间。

接着我们将这些数字与要归到训练集的比例（1-test_size）进行比较：如果数字小于比例，我们就将记录放在训练集（train属性的值为True）中；否则就放到测试集中（train属性的值为False）。

最后两行将数据集拆成训练集和测试集。～是逻辑运算“否”的运算符；这样，如果train属性为False，那么“否”一下就成了True。

4. 更多

SciKit-learn提供了另一种拆分数据集的方法。我们先将原始的数据集分成两块，一块是因变量y，一块是自变量x：

# 选择自变量和因变量
x = data[['zip', 'beds', 'sq__ft']]
y = data['price']

然后就可以拆了：

# 拆分
x_train, x_test, y_train, y_test = sk.train_test_split(
x, y, test_size=0.33, random_state=42)

.train_test_split(...)方法帮我们将数据集拆成互补的子集：一个是训练集，另一个是测试集。在每个种类中，我们有两个数据集：一个包含因变量，另一个包含自变量。

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

著名口述史学者Portelli的一部被忽视的口述史作品 | 一个工业小镇的传记：意大利特尔尼（1831-2014）