R语言学习3–数据清洗

4 minute read

”清洁的“数据要满足的标准

每列为一个变量；
每行为一个观测（observation）；
每个单元格为一个值。

standard_visible

例子：

table1
#> # A tibble: 6 × 4
#>   country      year  cases population
#>   <chr>       <dbl>  <dbl>      <dbl>
#> 1 Afghanistan  1999    745   19987071
#> 2 Afghanistan  2000   2666   20595360
#> 3 Brazil       1999  37737  172006362
#> 4 Brazil       2000  80488  174504898
#> 5 China        1999 212258 1272915272
#> 6 China        2000 213766 1280428583

满足清洁条件，是一个很好的可直接用于tidyverse的数据集。

table2
#> # A tibble: 12 × 4
#>   country      year type           count
#>   <chr>       <dbl> <chr>          <dbl>
#> 1 Afghanistan  1999 cases            745
#> 2 Afghanistan  1999 population  19987071
#> 3 Afghanistan  2000 cases           2666
#> 4 Afghanistan  2000 population  20595360
#> 5 Brazil       1999 cases          37737
#> 6 Brazil       1999 population 172006362
#> # ℹ 6 more rows

每个observe被拆成了两行，违反第2条。

table3
#> # A tibble: 6 × 3
#>   country      year rate             
#>   <chr>       <dbl> <chr>            
#> 1 Afghanistan  1999 745/19987071     
#> 2 Afghanistan  2000 2666/20595360    
#> 3 Brazil       1999 37737/172006362  
#> 4 Brazil       2000 80488/174504898  
#> 5 China        1999 212258/1272915272
#> 6 China        2000 213766/1280428583

每个单元格并非一个值（rate列每个单元格里面有两个原始数据），违反第3条。

`pivot_longer()`：将宽的数据变长

场景：列名是数据的值，而不是变量本身
tidyverse处理数据实践中，一般喜欢把宽的数据变长

例子：

billboard
#> # A tibble: 317 × 79
#>   artist       track               date.entered   wk1   wk2   wk3   wk4   wk5
#>   <chr>        <chr>               <date>       <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 2 Pac        Baby Don't Cry (Ke… 2000-02-26      87    82    72    77    87
#> 2 2Ge+her      The Hardest Part O… 2000-09-02      91    87    92    NA    NA
#> 3 3 Doors Down Kryptonite          2000-04-08      81    70    68    67    66
#> 4 3 Doors Down Loser               2000-10-21      76    76    72    69    67
#> 5 504 Boyz     Wobble Wobble       2000-04-15      57    34    25    17    17
#> 6 98^0         Give Me Just One N… 2000-08-19      51    39    34    26    26
#> # ℹ 311 more rows
#> # ℹ 71 more variables: wk6 <dbl>, wk7 <dbl>, wk8 <dbl>, wk9 <dbl>, …

wk应当作为变量的值，要想达到这个效果，需要把宽的数据表变长。

billboard |> 
  pivot_longer(
    cols = starts_with("wk"), 
    names_to = "week", 
    values_to = "rank",
    values_drop_na = TRUE #若某些格没有值，直接不生成一个新的列
  )
#> # A tibble: 5,307 × 5
#>   artist track                   date.entered week   rank
#>   <chr>  <chr>                   <date>       <chr> <dbl>
#> 1 2 Pac  Baby Don't Cry (Keep... 2000-02-26   wk1      87
#> 2 2 Pac  Baby Don't Cry (Keep... 2000-02-26   wk2      82
#> 3 2 Pac  Baby Don't Cry (Keep... 2000-02-26   wk3      72
#> 4 2 Pac  Baby Don't Cry (Keep... 2000-02-26   wk4      77
#> 5 2 Pac  Baby Don't Cry (Keep... 2000-02-26   wk5      87
#> 6 2 Pac  Baby Don't Cry (Keep... 2000-02-26   wk6      94
#> # ℹ 5,301 more rows

pivot_longer()关键参数：
1. 哪些列要被压缩成一列?
2. 压缩成的列的名字
3. 原来单元格的数值，从一行变成一列，应当命名为哪个新的名字?

longer的工作逻辑

把行数增多，以把本来应该在一列多行的”列名“变量塞入将列名变量放入压缩到的列将值一一填入

`pivot_wider()`：将长的数据变宽

场景：一个observe的信息分散在多行里

例如：

患者	测量指标	值
A	心率	a
A	血压	b
B	心率	c
…	…	…

我们希望看到的效果是：

患者	心率	血压
A	a	b
B	c	xxxx

又或者：

cms_patient_experience
#> # A tibble: 500 × 5
#>   org_pac_id org_nm                     measure_cd   measure_title   prf_rate
#>   <chr>      <chr>                      <chr>        <chr>              <dbl>
#> 1 0446157747 USC CARE MEDICAL GROUP INC CAHPS_GRP_1  CAHPS for MIPS…       63
#> 2 0446157747 USC CARE MEDICAL GROUP INC CAHPS_GRP_2  CAHPS for MIPS…       87
#> 3 0446157747 USC CARE MEDICAL GROUP INC CAHPS_GRP_3  CAHPS for MIPS…       86
#> 4 0446157747 USC CARE MEDICAL GROUP INC CAHPS_GRP_5  CAHPS for MIPS…       57
#> 5 0446157747 USC CARE MEDICAL GROUP INC CAHPS_GRP_8  CAHPS for MIPS…       85
#> 6 0446157747 USC CARE MEDICAL GROUP INC CAHPS_GRP_12 CAHPS for MIPS…       24
#> # ℹ 494 more rows

使用wider转换为：

cms_patient_experience |> 
  pivot_wider(
    names_from = measure_cd,
    values_from = prf_rate
  )
#> # A tibble: 500 × 9
#>   org_pac_id org_nm                   measure_title   CAHPS_GRP_1 CAHPS_GRP_2
#>   <chr>      <chr>                    <chr>                 <dbl>       <dbl>
#> 1 0446157747 USC CARE MEDICAL GROUP … CAHPS for MIPS…          63          NA
#> 2 0446157747 USC CARE MEDICAL GROUP … CAHPS for MIPS…          NA          87
#> 3 0446157747 USC CARE MEDICAL GROUP … CAHPS for MIPS…          NA          NA
#> 4 0446157747 USC CARE MEDICAL GROUP … CAHPS for MIPS…          NA          NA
#> 5 0446157747 USC CARE MEDICAL GROUP … CAHPS for MIPS…          NA          NA
#> 6 0446157747 USC CARE MEDICAL GROUP … CAHPS for MIPS…          NA          NA
#> # ℹ 494 more rows
#> # ℹ 4 more variables: CAHPS_GRP_3 <dbl>, CAHPS_GRP_5 <dbl>, …

这就需要把两行变成一行，而拆分出更多的列。

pivot_wider()关键参数：
1. 新的列名来自哪里？
2. 新单元格填充的值来自哪里？

wider的工作逻辑

见上述”血压&心率“例子，此处不展开

若出现多个列指向同一个单元格(值)，如下所示：

df <- tribble(
~id, ~measurement, ~value,
"A",        "bp1",    100,
"A",        "bp1",    102,
"A",        "bp2",    120,
"B",        "bp1",    140, 
"B",        "bp2",    115
)

R会将单元格自动转换为列表格式。

df |>
  pivot_wider(
    names_from = measurement,
    values_from = value
  )
#> Warning: Values from `value` are not uniquely identified; output will contain
#> list-cols.
#> • Use `values_fn = list` to suppress this warning.
#> • Use `values_fn = {summary_fun}` to summarise duplicates.
#> • Use the following dplyr code to identify duplicates.
#>   {data} |>
#>   dplyr::summarise(n = dplyr::n(), .by = c(id, measurement)) |>
#>   dplyr::filter(n > 1L)
#> # A tibble: 2 × 3
#>   id    bp1       bp2      
#>   <chr> <list>    <list>   
#> 1 A     <dbl [2]> <dbl [1]>
#> 2 B     <dbl [1]> <dbl [1]>

进阶技巧：拆分列名

有时候列名包含多个信息，比如 male_15_25（男性，15-25岁）。
使用names_sep或names_pattern在pivot_longer时直接切分它们。

具体可以实操时通过AI agent解决。

Share on

X Facebook LinkedIn Bluesky

Sandro

R语言学习3–数据清洗

”清洁的“数据要满足的标准

例子：

`pivot_longer()`：将宽的数据变长

longer的工作逻辑

`pivot_wider()`：将长的数据变宽

wider的工作逻辑

进阶技巧：拆分列名

Share on

You May Also Enjoy

NAT66配置

Node Exporter+Prometheus+Grafana多机器服务监控系统搭建（2）

Node Exporter+Prometheus+Grafana多机器服务监控系统搭建（1）

R语言学习4–数据导入

Sandro

”清洁的“数据要满足的标准

例子：

pivot_longer()：将宽的数据变长

longer的工作逻辑

pivot_wider()：将长的数据变宽

wider的工作逻辑

进阶技巧：拆分列名

Share on

You May Also Enjoy

NAT66配置

Node Exporter+Prometheus+Grafana多机器服务监控系统搭建（2）

Node Exporter+Prometheus+Grafana多机器服务监控系统搭建（1）

R语言学习4–数据导入

`pivot_longer()`：将宽的数据变长

`pivot_wider()`：将长的数据变宽