使用R语言填补缺失值的方法

Z时代
2024-01-10
分类：综合

使用R语言填补缺失值

数据处理过程中，往往会存在缺失值，对于缺失值的处理，目前各大统计书提出的方法有剔除，用均数填补，用众数填补，采用其他自变量进行回归，推算缺失值进行填补等。在R语言中如何按要求进行填补？下面将介绍如何进行缺失值填补的各种方法

用某特定值替换缺失值

下面这段代码表示使用0填补缺失值，x是需要填补的数据框的某行或某列，如果是其他值，将0改成需要的值即可。


FillNA <- function(x){
 x[is.na(x )]<- 0;
 x
}

使用均值，众数，中位数进行填补

该过程函数是一样的，只需要将后续填补要用的值进行修正即可。


library(data.table)
library(dplyr)
library(tidyverse)
#data.table
setDT(data)
data[,names(data):=lapply(.SD,function(x){x[is.na(x)] <- getmode(x)
x})]
#dplyr
data %>% 
  mutate_all(function(x){x[is.na(x)] <- getmode(x)
  x})
dplyr_if_else   <- function(x) { mutate_all(x, ~if_else(is.na(.), 0, .)) }
#tidyverse
df %>% 
  select(Pclass, Sex, SibSp, Embarked) %>%
  map_dfc(~ replace_na(.x, rstatix::get_mode(.x)[1]))