长数据变为宽数据的7种情况!
昨天介绍了宽数据变为长数据的5种情况,今天介绍长数据变为宽数据的例子。
`pivot_wider`
capture-recapture data
汇总功能
从多个变量中生成列名
整洁的数据
隐式缺失值
没用的列
通讯录数据
pivot_wider
pivot_wider
是pivot_longer
的反向操作,把长数据变为宽数据。宽数据一般不常用,但是在总结图表或者导入其他软件使用时很有用。
尤其是在做中药处方数据挖掘方面,非常有用!
capture-recapture data
使用fish_encounters
数据集,这个数据记录了鱼游到水边会不会被检测到。
这个数据集非常实用,如果你做中医药处方数据挖掘相关工作,那么学会这个例子中的方法基本就是解决了大部分问题!
fish_encounters
## # A tibble: 114 x 3
## fish station seen
## <fct> <fct> <int>
## 1 4842 Release 1
## 2 4842 I80_1 1
## 3 4842 Lisbon 1
## 4 4842 Rstr 1
## 5 4842 Base_TD 1
## 6 4842 BCE 1
## 7 4842 BCW 1
## 8 4842 BCE2 1
## 9 4842 BCW2 1
## 10 4842 MAE 1
## # ... with 104 more rows
许多分析都需要每一个工作站(station)是一列:
fish_encounters %>%
pivot_wider(
names_from = station,
values_from = seen
)
## # A tibble: 19 x 12
## fish Release I80_1 Lisbon Rstr Base_TD BCE BCW BCE2 BCW2 MAE MAW
## <fct> <int> <int> <int> <int> <int> <int> <int> <int> <int> <int> <int>
## 1 4842 1 1 1 1 1 1 1 1 1 1 1
## 2 4843 1 1 1 1 1 1 1 1 1 1 1
## 3 4844 1 1 1 1 1 1 1 1 1 1 1
## 4 4845 1 1 1 1 1 NA NA NA NA NA NA
## 5 4847 1 1 1 NA NA NA NA NA NA NA NA
## 6 4848 1 1 1 1 NA NA NA NA NA NA NA
## 7 4849 1 1 NA NA NA NA NA NA NA NA NA
## 8 4850 1 1 NA 1 1 1 1 NA NA NA NA
## 9 4851 1 1 NA NA NA NA NA NA NA NA NA
## 10 4854 1 1 NA NA NA NA NA NA NA NA NA
## 11 4855 1 1 1 1 1 NA NA NA NA NA NA
## 12 4857 1 1 1 1 1 1 1 1 1 NA NA
## 13 4858 1 1 1 1 1 1 1 1 1 1 1
## 14 4859 1 1 1 1 1 NA NA NA NA NA NA
## 15 4861 1 1 1 1 1 1 1 1 1 1 1
## 16 4862 1 1 1 1 1 1 1 1 1 NA NA
## 17 4863 1 1 NA NA NA NA NA NA NA NA NA
## 18 4864 1 1 NA NA NA NA NA NA NA NA NA
## 19 4865 1 1 1 NA NA NA NA NA NA NA NA
这个数据集记录的是鱼是否被检测到,如果检测到就是1,所有你会发现长数据变为宽数据后出现了很多NA
,但其实这些NA
代表的是没被检测到。
对于这种数据,我们可以通过添加参数解决,把NA
变成0:
fish_encounters %>% pivot_wider(
names_from = station,
values_from = seen,
values_fill = 0 # 自动填充0
)
## # A tibble: 19 x 12
## fish Release I80_1 Lisbon Rstr Base_TD BCE BCW BCE2 BCW2 MAE MAW
## <fct> <int> <int> <int> <int> <int> <int> <int> <int> <int> <int> <int>
## 1 4842 1 1 1 1 1 1 1 1 1 1 1
## 2 4843 1 1 1 1 1 1 1 1 1 1 1
## 3 4844 1 1 1 1 1 1 1 1 1 1 1
## 4 4845 1 1 1 1 1 0 0 0 0 0 0
## 5 4847 1 1 1 0 0 0 0 0 0 0 0
## 6 4848 1 1 1 1 0 0 0 0 0 0 0
## 7 4849 1 1 0 0 0 0 0 0 0 0 0
## 8 4850 1 1 0 1 1 1 1 0 0 0 0
## 9 4851 1 1 0 0 0 0 0 0 0 0 0
## 10 4854 1 1 0 0 0 0 0 0 0 0 0
## 11 4855 1 1 1 1 1 0 0 0 0 0 0
## 12 4857 1 1 1 1 1 1 1 1 1 0 0
## 13 4858 1 1 1 1 1 1 1 1 1 1 1
## 14 4859 1 1 1 1 1 0 0 0 0 0 0
## 15 4861 1 1 1 1 1 1 1 1 1 1 1
## 16 4862 1 1 1 1 1 1 1 1 1 0 0
## 17 4863 1 1 0 0 0 0 0 0 0 0 0
## 18 4864 1 1 0 0 0 0 0 0 0 0 0
## 19 4865 1 1 1 0 0 0 0 0 0 0 0
这样就很清楚了,1代表被检测到,0代表没被检测到。
这个数据也是中药处方数据挖掘中常用的频率矩阵。
汇总功能
pivot_wider
支持简单的汇总功能,以下面的warpbreaks
数据集为例,这是每个样本都有9个重复的实验设计:
warpbreaks <- warpbreaks %>% as_tibble() %>%
select(wool, tension, breaks)
warpbreaks
## # A tibble: 54 x 3
## wool tension breaks
## <fct> <fct> <dbl>
## 1 A L 26
## 2 A L 30
## 3 A L 54
## 4 A L 25
## 5 A L 70
## 6 A L 52
## 7 A L 51
## 8 A L 26
## 9 A L 67
## 10 A M 18
## # ... with 44 more rows
warpbreaks %>% count(wool, tension)
## # A tibble: 6 x 3
## wool tension n
## <fct> <fct> <int>
## 1 A L 9
## 2 A M 9
## 3 A H 9
## 4 B L 9
## 5 B M 9
## 6 B H 9
假如我们想把tension
这一列变为多列,会发生问题:
warpbreaks %>% pivot_wider(
names_from = wool,
values_from = breaks
)
## Warning: Values from `breaks` are not uniquely identified; output will contain list-cols.
## * Use `values_fn = list` to suppress this warning.
## * Use `values_fn = {summary_fun}` to summarise duplicates.
## * Use the following dplyr code to identify duplicates.
## {data} %>%
## dplyr::group_by(tension, wool) %>%
## dplyr::summarise(n = dplyr::n(), .groups = "drop") %>%
## dplyr::filter(n > 1L)
## # A tibble: 3 x 3
## tension A B
## <fct> <list> <list>
## 1 L <dbl [9]> <dbl [9]>
## 2 M <dbl [9]> <dbl [9]>
## 3 H <dbl [9]> <dbl [9]>
这段提示告诉我们:输出数据中一个单元格的值包含了多个输入数据的单元格值,上面的这个数据wool
和tension
这两列,A
和L
对应的breaks
的值有多个,这样得到的结果每个单元格中是一个列表。可以通过传递一个函数解决:
warpbreaks %>%
pivot_wider(
names_from = wool,
values_from = breaks,
values_fn = list(breaks = mean)
)
## # A tibble: 3 x 3
## tension A B
## <fct> <dbl> <dbl>
## 1 L 44.6 28.2
## 2 M 24 28.8
## 3 H 24.6 18.8
这样我们就得到了平均值,对于简答的汇总操作可以使用pivot_wider
,但是对于复杂的操作还是建议先汇总再进行长宽转换。
长数据转换为宽数据就是需要每一行都有唯一标识符,不然就会有问题,如果不想汇总,也可以为每个观测添加唯一的标识符,然后再转换:
warpbreaks %>%
mutate(row_id = row_number()) %>%
pivot_wider(
names_from = wool,
values_from = tension
)
## # A tibble: 54 x 4
## breaks row_id A B
## <dbl> <int> <fct> <fct>
## 1 26 1 L <NA>
## 2 30 2 L <NA>
## 3 54 3 L <NA>
## 4 25 4 L <NA>
## 5 70 5 L <NA>
## 6 52 6 L <NA>
## 7 51 7 L <NA>
## 8 26 8 L <NA>
## 9 67 9 L <NA>
## 10 18 10 M <NA>
## # ... with 44 more rows
从多个变量中生成列名
假如我们有一个数据集包含产品、国家、年,以tidy形式储存:
production <- expand.grid(
product = c("A","B"),
country = c("AI","EI"),
year = 2000:2014
) %>%
filter((product == "A" & country == "AI") | product == "B") %>%
mutate(production = rnorm(nrow(.)))
production
## product country year production
## 1 A AI 2000 -0.087295557
## 2 B AI 2000 -0.110905487
## 3 B EI 2000 1.634681334
## 4 A AI 2001 -0.388716367
## 5 B AI 2001 1.331350645
## 6 B EI 2001 -0.053276856
## 7 A AI 2002 -0.479793652
## 8 B AI 2002 0.420395500
## 9 B EI 2002 -0.232220115
## 10 A AI 2003 -1.216031488
## 11 B AI 2003 -0.055353125
## 12 B EI 2003 0.581777559
## 13 A AI 2004 0.445017075
## 14 B AI 2004 0.353079737
## 15 B EI 2004 -0.335688514
## 16 A AI 2005 3.121852854
## 17 B AI 2005 -2.297172571
## 18 B EI 2005 1.119929895
## 19 A AI 2006 -0.140201867
## 20 B AI 2006 0.804035254
## 21 B EI 2006 -0.556100361
## 22 A AI 2007 0.012777346
## 23 B AI 2007 0.223261719
## 24 B EI 2007 0.156248377
## 25 A AI 2008 -0.635435270
## 26 B AI 2008 -0.648780262
## 27 B EI 2008 0.295025191
## 28 A AI 2009 0.569436763
## 29 B AI 2009 2.512097901
## 30 B EI 2009 -0.937012717
## 31 A AI 2010 -0.009918068
## 32 B AI 2010 -0.328314663
## 33 B EI 2010 1.581608640
## 34 A AI 2011 0.497168601
## 35 B AI 2011 -0.859256144
## 36 B EI 2011 0.533496101
## 37 A AI 2012 -0.246426907
## 38 B AI 2012 1.600651171
## 39 B EI 2012 1.978769369
## 40 A AI 2013 1.074354159
## 41 B AI 2013 -1.386956360
## 42 B EI 2013 2.134569308
## 43 A AI 2014 1.019885383
## 44 B AI 2014 1.075803719
## 45 B EI 2014 -1.732513618
想在我们想把这个数据集变成宽数据,其中一列包含product
和country
两列的信息,我们该怎么办呢?
production %>% pivot_wider(
names_from = c(product, country), # 直接放一起即可
values_from = production
)
## # A tibble: 15 x 4
## year A_AI B_AI B_EI
## <int> <dbl> <dbl> <dbl>
## 1 2000 -0.0873 -0.111 1.63
## 2 2001 -0.389 1.33 -0.0533
## 3 2002 -0.480 0.420 -0.232
## 4 2003 -1.22 -0.0554 0.582
## 5 2004 0.445 0.353 -0.336
## 6 2005 3.12 -2.30 1.12
## 7 2006 -0.140 0.804 -0.556
## 8 2007 0.0128 0.223 0.156
## 9 2008 -0.635 -0.649 0.295
## 10 2009 0.569 2.51 -0.937
## 11 2010 -0.00992 -0.328 1.58
## 12 2011 0.497 -0.859 0.533
## 13 2012 -0.246 1.60 1.98
## 14 2013 1.07 -1.39 2.13
## 15 2014 1.02 1.08 -1.73
可以通过多个参数控制输出数据的列名:
production %>% pivot_wider(
names_from = c(product, country),
values_from = production,
names_sep = ".", # 连接符
names_prefix = "prod." # 前缀
)
## # A tibble: 15 x 4
## year prod.A.AI prod.B.AI prod.B.EI
## <int> <dbl> <dbl> <dbl>
## 1 2000 -0.0873 -0.111 1.63
## 2 2001 -0.389 1.33 -0.0533
## 3 2002 -0.480 0.420 -0.232
## 4 2003 -1.22 -0.0554 0.582
## 5 2004 0.445 0.353 -0.336
## 6 2005 3.12 -2.30 1.12
## 7 2006 -0.140 0.804 -0.556
## 8 2007 0.0128 0.223 0.156
## 9 2008 -0.635 -0.649 0.295
## 10 2009 0.569 2.51 -0.937
## 11 2010 -0.00992 -0.328 1.58
## 12 2011 0.497 -0.859 0.533
## 13 2012 -0.246 1.60 1.98
## 14 2013 1.07 -1.39 2.13
## 15 2014 1.02 1.08 -1.73
也可以通过names_glue
函数:
production %>% pivot_wider(
names_from = c(product, country),
values_from = production,
names_glue = "prod_{product}_{country}" # glue函数很好用
)
## # A tibble: 15 x 4
## year prod_A_AI prod_B_AI prod_B_EI
## <int> <dbl> <dbl> <dbl>
## 1 2000 -0.0873 -0.111 1.63
## 2 2001 -0.389 1.33 -0.0533
## 3 2002 -0.480 0.420 -0.232
## 4 2003 -1.22 -0.0554 0.582
## 5 2004 0.445 0.353 -0.336
## 6 2005 3.12 -2.30 1.12
## 7 2006 -0.140 0.804 -0.556
## 8 2007 0.0128 0.223 0.156
## 9 2008 -0.635 -0.649 0.295
## 10 2009 0.569 2.51 -0.937
## 11 2010 -0.00992 -0.328 1.58
## 12 2011 0.497 -0.859 0.533
## 13 2012 -0.246 1.60 1.98
## 14 2013 1.07 -1.39 2.13
## 15 2014 1.02 1.08 -1.73
整洁的数据
以us_rent_income
数据集为例,这个数据集是关于美国2017年每个州的收入和租金。
us_rent_income
## # A tibble: 104 x 5
## GEOID NAME variable estimate moe
## <chr> <chr> <chr> <dbl> <dbl>
## 1 01 Alabama income 24476 136
## 2 01 Alabama rent 747 3
## 3 02 Alaska income 32940 508
## 4 02 Alaska rent 1200 13
## 5 04 Arizona income 27517 148
## 6 04 Arizona rent 972 4
## 7 05 Arkansas income 23789 165
## 8 05 Arkansas rent 709 5
## 9 06 California income 29454 109
## 10 06 California rent 1358 3
## # ... with 94 more rows
可以看到estimate
和moe
是值,我们可以把它们用作values_from
的参数:
us_rent_income %>%
pivot_wider(
names_from = variable,
values_from = c(estimate, moe),
names_sep = "."
)
## # A tibble: 52 x 6
## GEOID NAME estimate.income estimate.rent moe.income moe.rent
## <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 01 Alabama 24476 747 136 3
## 2 02 Alaska 32940 1200 508 13
## 3 04 Arizona 27517 972 148 4
## 4 05 Arkansas 23789 709 165 5
## 5 06 California 29454 1358 109 3
## 6 08 Colorado 32401 1125 109 5
## 7 09 Connecticut 35326 1123 195 5
## 8 10 Delaware 31560 1076 247 10
## 9 11 District of Columbia 43198 1424 681 17
## 10 12 Florida 25952 1077 70 3
## # ... with 42 more rows
函数会自动帮我们把列名连到一起,非常方便。
隐式缺失值
有时我们会遇到因子型数据,但不是所有的水平都有相应的值,例如下面这个数据:
weekdays <- c("Mon", "Tue", "Wed", "Thu", "Fri", "Sat", "Sun")
daily <- tibble(
day = factor(c("Tue", "Thu", "Fri", "Mon"), levels = weekdays),
value = c(2, 3, 1, 5)
)
daily
## # A tibble: 4 x 2
## day value
## <fct> <dbl>
## 1 Tue 2
## 2 Thu 3
## 3 Fri 1
## 4 Mon 5
可以看到day
是因子型,且有7个水平,但不是所有的水平都显示出来了,假如我们想要都显示出来,也可以办到:
daily %>% pivot_wider(
names_from = day,
values_from = value,
names_expand = T # 所有水平都显示出来
)
## # A tibble: 1 x 7
## Mon Tue Wed Thu Fri Sat Sun
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5 2 NA 3 1 NA NA
假如names_from
含有多列,那么函数会自动组合所有可能:
percentages <- tibble(
year = c(2018, 2019, 2020, 2020),
type = factor(c("A", "B", "A", "B"), levels = c("A", "B")),
percentage = c(100, 100, 40, 60)
)
percentages
## # A tibble: 4 x 3
## year type percentage
## <dbl> <fct> <dbl>
## 1 2018 A 100
## 2 2019 B 100
## 3 2020 A 40
## 4 2020 B 60
接下来变为宽数据:
pivot_wider(
percentages,
names_from = c(year, type), # 多列
values_from = percentage,
names_expand = TRUE, # 自动给出所有组合
values_fill = 0 # 没有的填充0
)
## # A tibble: 1 x 6
## `2018_A` `2018_B` `2019_A` `2019_B` `2020_A` `2020_B`
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 100 0 0 100 40 60
上面这种情况是names
含有因子型,另一种相似的情况是id_cols
(可以简单理解为能够区分不同行数据的唯一标识符列)含有隐式缺失值(因子型),这种情况下需要用id_expand
。
daily <- daily %>% mutate(type = factor(c("A","B","B","A")))
daily
## # A tibble: 4 x 3
## day value type
## <fct> <dbl> <fct>
## 1 Tue 2 A
## 2 Thu 3 B
## 3 Fri 1 B
## 4 Mon 5 A
接下来变为宽数据:
daily %>%
pivot_wider(
names_from = type,
values_from = value,
id_expand = T
)
## # A tibble: 7 x 3
## day A B
## <fct> <dbl> <dbl>
## 1 Mon 5 NA
## 2 Tue 2 NA
## 3 Wed NA NA
## 4 Thu NA 3
## 5 Fri NA 1
## 6 Sat NA NA
## 7 Sun NA NA
但是其实不用也是不会报错的:
daily %>%
pivot_wider(
names_from = type,
values_from = value
)
## # A tibble: 4 x 3
## day A B
## <fct> <dbl> <dbl>
## 1 Tue 2 NA
## 2 Thu NA 3
## 3 Fri NA 1
## 4 Mon 5 NA
没用的列
有些数据中的某一列对于长宽转换是没用的,但是这一列你又不想丢掉,这种情况可以使用unused_fn
搞定。
updates <- tibble(
county = c("Wake", "Wake", "Wake", "Guilford", "Guilford"),
date = c(as.Date("2020-01-01") + 0:2, as.Date("2020-01-03") + 0:1),
system = c("A", "B", "C", "A", "C"),
value = c(3.2, 4, 5.5, 2, 1.2)
)
updates
## # A tibble: 5 x 4
## county date system value
## <chr> <date> <chr> <dbl>
## 1 Wake 2020-01-01 A 3.2
## 2 Wake 2020-01-02 B 4
## 3 Wake 2020-01-03 C 5.5
## 4 Guilford 2020-01-03 A 2
## 5 Guilford 2020-01-04 C 1.2
现在我们想把system
这一列进行转换:
updates %>%
pivot_wider(
names_from = system,
values_from = value,
id_cols = county
)
## # A tibble: 2 x 4
## county A B C
## <chr> <dbl> <dbl> <dbl>
## 1 Wake 3.2 4 5.5
## 2 Guilford 2 NA 1.2
这样虽然不会报错,但是date
那一列的信息就完全丢失了。
我们可以通过使用unused_fn
进行调整,比如我们可以通过函数保留最新的日期:
updates %>%
pivot_wider(
id_cols = county,
names_from = system,
values_from = value,
unused_fn = list(date = max)
)
## # A tibble: 2 x 5
## county A B C date
## <chr> <dbl> <dbl> <dbl> <date>
## 1 Wake 3.2 4 5.5 2020-01-03
## 2 Guilford 2 NA 1.2 2020-01-04
这样就保留了最新的日期。
也可以直接把date
列变为列表形式保存下来:
updates %>%
pivot_wider(
id_cols = county,
names_from = system,
values_from = value,
unused_fn = list(date = list) # 神奇的操作!
)
## # A tibble: 2 x 5
## county A B C date
## <chr> <dbl> <dbl> <dbl> <list>
## 1 Wake 3.2 4 5.5 <date [3]>
## 2 Guilford 2 NA 1.2 <date [2]>
通讯录数据
假如我们有一个下面这样的通讯录数据:
contacts <- tribble(
~field, ~value,
"name", "Jiena McLellan",
"company", "Toyota",
"name", "John Smith",
"company", "google",
"email", "john@google.com",
"name", "Huxley Ratcliffe"
)
contacts
## # A tibble: 6 x 2
## field value
## <chr> <chr>
## 1 name Jiena McLellan
## 2 company Toyota
## 3 name John Smith
## 4 company google
## 5 email john@google.com
## 6 name Huxley Ratcliffe
这个数据没有任何一列能够区分每一行怎么分组。
我们可以创建一个新列,每当field
这一列出现name
时,就加一。
contacts <- contacts %>%
mutate(
person_id = cumsum(field == "name")
)
contacts
## # A tibble: 6 x 3
## field value person_id
## <chr> <chr> <int>
## 1 name Jiena McLellan 1
## 2 company Toyota 1
## 3 name John Smith 2
## 4 company google 2
## 5 email john@google.com 2
## 6 name Huxley Ratcliffe 3
这样操作以后每个人就都有了唯一的标识符。这样就可以把field
和value
这两列进行pivot
了。
contacts %>%
pivot_wider(
names_from = field,
values_from = value
)
## # A tibble: 3 x 4
## person_id name company email
## <int> <chr> <chr> <chr>
## 1 1 Jiena McLellan Toyota <NA>
## 2 2 John Smith google john@google.com
## 3 3 Huxley Ratcliffe <NA> <NA>
以上就是常见的长变宽的7种情况,明天继续介绍更加复杂的长宽转换例子。
以上就是今天的内容,希望对你有帮助哦!欢迎点赞、在看、关注、转发!
欢迎在评论区留言或直接添加我的微信!
让OneNote支持Markdown:oneMark,重新定义OneNote
2022-02-19
让你的ggplot2支持markdown语法
2022-02-20
让你的ggplot2主题支持markdown和css
2022-02-21
使用ggplot2画一个五颜六色条形图
2022-02-22
GGally包的实用函数
2022-02-18
欢迎关注我的公众号:医学和生信笔记
“医学和生信笔记 公众号主要分享:1.医学小知识、肛肠科小知识;2.R语言和Python相关的数据分析、可视化、机器学习等;3.生物信息学学习资料和自己的学习笔记!