从零开始学Python数据分析【8】-- pandas(数据框部分03)

在数据分析或建模过程中，我们希望数据集是干净的，没有缺失、异常之类，但面临的实际情况确实数据集很脏，例如对于缺失值我们该如何解决？一般情况，缺失值可以通过删除或替补的方式来处理。首先是要监控每个变量是否存在缺失，缺失的比例如何？这里我们借助于pandas模块中的isnull函数、dropna函数和fillna函数。

首先，我们手工编造一个含缺失值的数据框：

其次，使用isnull函数检查数据集的缺失情况：

最后，对缺失数据进行处理：

删除法

dropna函数，有两种删除模式，一种是对含有缺失的行(任意一列)进行删除，另一种是删除那些全是缺失(所有列)的行，具体如下：

由于df数据集不存在行全为缺失的观测，故没有实现删除。

替补法

fillna函数提供前向替补、后向替补和函数替补的几种方法，具体可参见下面的代码示例：

再来看看R语言是如何重现上面的操作的：

不幸的是，R中没有删除每行元素都是缺失的观测，我们自定义个函数也可以实现：

关于缺失值的替补，在R语言中可以使用Hmisc包中的impute函数，具体操作如下：

三、数据映射

大家都知道，Python和R在做循环时，效率还是很低的，如何避开循环达到相同的效果呢？这就是接下来我们要研究的映射函数apply。该函数的目的就是将用户指定的函数运用到数据集的纵轴即各个变量或横轴即各个行。

例如以上面的统计数据集df各行和各列是否存在缺失为例，原先是这样的：

现在通过映射函数可以这样简介而快速的实现：

再如，需要计算每个学生的总成绩，或各科的平均分，也可以用apply函数实现：

在R语言中，实现上述映射操作的函数有很多，这里就以sapply和apply两个函数为例：

如图所示，如果需要统计数据集每行的某个值，需要先将数值型的数据框转化为矩阵，然后基于矩阵使用apply函数。

四、数据汇总

如果你想要做类似SQL中的聚合操作，pandas也提供了实现该功能的函数，即groupby函数与aggregate函数的搭配使用，我们以上面的收入数据集为例作为演示：

以上结果，默认会对所有数值型变量作性别的均值统计。

学会使用Python的pandas模块对数据进行聚合了，那接下来看看R语言又是如何实现的：

R语言的实现数据的聚合操作需要下载dplyr包，并结合group_by函数和summarize函数。

今天我们的内容就介绍到这边，欢迎大家拍砖。下期我们来聊聊pandas模块的数据框DataFrame第四部分。主要涉及多个数据集之间的合并和连接、哑变量生成和连续数值的区间化操作。

Python爱好者社区历史文章大合集：

Python爱好者社区历史文章列表（每周append更新一次）

福利：文末扫码立刻关注公众号，“Python爱好者社区”，开始学习Python课程：

关注后在公众号内回复“课程”即可获取：

1.崔老师爬虫实战案例免费学习视频。

2.丘老师数据科学入门指导免费学习视频。

3.陈老师数据分析报告制作免费学习视频。

4.玩转大数据分析！Spark2.X+Python 精华实战课程免费学习视频。

5.丘老师Python网络爬虫实战免费学习视频。

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！