Comment imputer les données manquantes dans R
R est un langage de programmation populaire pour l’analyse statistique, et il offre plusieurs packages et fonctions pour imputer les données manquantes dans la régression. Par exemple, vous pouvez utiliser la fonction na.omit pour effectuer une analyse de cas complète, la fonction impute du package Hmisc pour effectuer une imputation moyenne ou de régression et la fonction souris du package de souris pour effectuer une imputation multiple. Voici un exemple de code pour illustrer l’utilisation de ces fonctions :
# Générer des données avec des valeurs manquantes
x1 <- MRN(100, moyenne = 10, écart-type = 2)
x2 <- MRN(100, moyenne = 5, écart-type = 1)
y <- 2 * x1 + 3 * x2 + rnorm(100, moyenne = 0, écart-type = 1)
données <- data.frame(x1, x2, y)
données[échantillon(1:100, 20), « x1 »] <-NA
données[échantillon(1:100, 20), « x2 »] <-NA
données[échantillon(1:100, 20), « y »] <-NA
# Effectuer une analyse complète des cas
données_cc <- na.omit(données)
Lm_cc <-Lm(y ~ x1 + x2, données = données_cc)
# Effectuer l’imputation moyenne
données_méchant <-imputer(données, moyenne)
Lm_méchant <-Lm(y ~ x1 + x2, données = données_méchant)
# Effectuer l’imputation de régression
données_Reg <-imputer(données, plaisir = lm)
Lm_Reg <-Lm(y ~ x1 + x2, données = données_Reg)
# Effectuer des imputations multiples
données_mi <-souris(données, m = 5, méthode = « pmm »)
Lm_mi <-avec(données_mi, lm(y ~ x1 + x2))