如何理解pandas中的transform函数
transform函数一直没懂,直到看到这篇文章 UnderstandingtheTransformFunctioninPandas
, 假设我们有下面的销售数据,有三个不同的 订单id (10001, 10005和10006),每个 订单id又含有多个产品。
import pandas as pd
df = pd.read_excel("sales_transactions.xlsx")
df
问题
每个订单中各个单品费用分布及占比
例如,订单10001总价$576.12,细分一下
B1-20000 = $235.83 or 40.9%
S1-27722 = $232.32 or 40.3%
B1-86481 = $107.97 or 18.7%
如果还是没看懂,直接看代码吧。通过代码理解,比看大邓唠叨更有效果。
Talk is cheep, show me your code
第一种方法-merge
如果熟悉pandas的话,应该先试图对dataframe进行groupby
df.groupby('order')['ext price'].sum()
Run
order
10001 576.12
10005 8185.49
10006 3724.49
Name: ext price, dtype: float64
现在的难点是如何将刚刚分析出的数据与原始数据加工到一起,因为新旧数据的长度是不一样的。
最直接的方法就是新建一个dataframe
order_total = df.groupby('order')['ext price'].sum().rename('Order_Total').reset_index()
df_1 = df.merge(order_total)
df_1['Percent_of_Order'] = df_1['ext price']/df_1['Order_Total']
df_1
第二种方法- transform
使用原始dataframe,让我们看看经过transform与groupby处理后,我们得到的都是什么
df.groupby('order')['ext price'].transform('sum')
Run
0 576.12
1 576.12
2 576.12
3 8185.49
4 8185.49
5 8185.49
6 8185.49
7 8185.49
8 3724.49
9 3724.49
10 3724.49
11 3724.49
Name: ext price, dtype: float64
我们发现得到的数据长度与groupby长度不同(长度是3),而与原始数据df的长度是一样的。
所以我们可以一行代码解决本文的问题
df["Percent_of_Order"] = df["ext price"] / df.groupby('order')["ext price"].transform('sum')
df
近期文章
顺利开班 | python爬虫分析2019年杭州国庆工作坊顺利开班
课件获取方式,请在公众号后台回复关键词“20191014”,客官如果觉得有收获,顺便那啥一下哈