手把手教你做一个“渣”数据师,用Python代替老情人Excel
点击上方“Python数据科学”,星标公众号
重磅干货,第一时间送达
大数据文摘出品
来源:medium 编译:张大笔茹
十年前,你说你是做数据的,大家的反应就是——用Excel做做表。
现在,要成为一个合格的数据分析师,你说你不会Python,大概率会被江湖人士耻笑。
Medium上一位博主就分享了他一步步用Python替换掉十年前的“老情人”Excel的过程,一起来学习一下吧!
一、将excel文件导入Panda DataFrame
https://archive.ics.uci.edu/ml/datasets/iris
pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, parse_cols=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, skip_footer=0, skipfooter=0, convert_float=True, mangle_dupe_cols=True, **kwds)
有大量可用的参数,我们来看一下最常用的一些参数。
2、一些重要的Pandas read_excel选项
https://medium.com/@ageitgey/Python-3-quick-tip-the-easy-way-to-deal-with-file-paths-on-windows-mac-and-linux-11a072b58d5f
3、导入表格
5、略过行和列
二、查看的数据的属性
1、从“头”到“脚”
3、查看所有列的名字
4、查看信息
5、返回到DataFrame
6、查看DataFrame中的数据类型
三、分割:即Excel过滤器
1、查看列
使用点符号:例如data.column_name
使用方括号和列名称:数据[“COLUMN_NAME”]
使用数字索引和iloc选择器:data.loc [:,'column_number']
2、查看多列
3、查看特定行
4、同时分割行和列
5、在某一列中筛选
6、筛选多种数值
7、用列表筛选多种数值
8、筛选不在列表或Excel中的值
9、用多个条件筛选多列数据
10、根据数字条件过滤
11、在Excel中复制自定义的筛选器
12、合并两个过滤器的计算结果
13、包含Excel中的功能
14、从DataFrame获取特定的值
15、排序
四、统计功能
1、描述性统计
五、数据计算
1、计算某一特定列的值
2、计数
3、求和
4、将总列添加到已存在的数据集
5、特定列的总和,使用loc函数
6、用drop函数删除行
7、计算每列的总和
Sum_Total:计算列的总和
T_Sum:将系列输出转换为DataFrame并进行转置
Re-index:添加缺少的列
Row_Total:将T_Sum附加到现有的DataFrame
8、多条件求和,即Excel中的Sumif函数
9、多条件求和
11、求最大值
12、求最小值
13、Groupby:即Excel中的小计函数
六、DataFrame中的数据透视表功能
七、Vlookup函数
left——使用左侧DataFrame中的共享列并匹配右侧DataFrame,N/A为NaN;
right——使用右侧DataFrame中的共享列并匹配左侧DataFrame,N/A为NaN;
inner——仅显示两个共享列重叠的数据。默认方法;
outer——当左侧或右侧DataFrame中存在匹配时,返回所有记录。
https://towardsdatascience.com/replacing-excel-with-Python-30aa060d35e
推荐阅读
1、听完阿里BI述说的苦水,我很有同感!2、技术面试时该反问面试官什么问题?小伙整理了灵魂50问,GitHub日入2500星
3、2019互联网月饼哪家强?阿里走情怀;百度最土豪!
4、突发!公信宝被查封一窝端,爬虫可能又惹祸了!
5、Python写的抢票神器成GitHub热榜第一8400星,竟然还支持候补抢票!
👆关注“数据挖掘工程师”