Imputation by PLS regression for linear mixed models
[Imputation par régression PLS dans les modèles linéaires mixtes]
Journal de la société française de statistique, Tome 152 (2011) no. 4, pp. 30-46.

Nous considérons le problème du traitement des données manquantes dans le cadre d’un modèle linéaire mixte, en présence de dépendance linéaire entre les covariables. Le mécanisme de valeurs manquantes concerne à la fois la variable dépendante et les covariables. Nous proposons un algorithme d’imputation combinant l’imputation multiple et la régression PLS. Notre méthode se décompose en différentes étapes. Tout d’abord en omettant les effets aléatoires, les effets fixes sont imputés et les composantes PLS sont construites sur le modèle complet correspondant. On réintroduit alors les effets aléatoires du modèle et la variable dépendante est imputée à l’intérieur du modèle linéaire mixte avec composantes PLS. La méthode est appliquée sur des simulations et sur des données réelles.

The problem of handling missing data in linear mixed models with correlated covariates is considered when the missing mechanism concerns both the dependent variable and the design matrix. We propose an imputation algorithm combining multiple imputation and Partial Least Squares (PLS) regression. The method relies on two steps: removing random effects, fixed effects are first imputed and PLS components are constructed on the corresponding complete case. The dependent variable is then imputed inside the linear mixed model obtained by adding the random effects to PLS components. The method is applied on simulations and on real data.

Mots clés : Multiple Imputation, Missing Data, Linear Mixed Regression Model
@article{JSFS_2011__152_4_30_0,
     author = {Guyon, Emilie and Pommeret, Denys},
     title = {Imputation by {PLS} regression for linear mixed models},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {30--46},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {152},
     number = {4},
     year = {2011},
     zbl = {1316.62108},
     language = {en},
     url = {http://www.numdam.org/item/JSFS_2011__152_4_30_0/}
}
TY  - JOUR
AU  - Guyon, Emilie
AU  - Pommeret, Denys
TI  - Imputation by PLS regression for linear mixed models
JO  - Journal de la société française de statistique
PY  - 2011
SP  - 30
EP  - 46
VL  - 152
IS  - 4
PB  - Société française de statistique
UR  - http://www.numdam.org/item/JSFS_2011__152_4_30_0/
LA  - en
ID  - JSFS_2011__152_4_30_0
ER  - 
%0 Journal Article
%A Guyon, Emilie
%A Pommeret, Denys
%T Imputation by PLS regression for linear mixed models
%J Journal de la société française de statistique
%D 2011
%P 30-46
%V 152
%N 4
%I Société française de statistique
%U http://www.numdam.org/item/JSFS_2011__152_4_30_0/
%G en
%F JSFS_2011__152_4_30_0
Guyon, Emilie; Pommeret, Denys. Imputation by PLS regression for linear mixed models. Journal de la société française de statistique, Tome 152 (2011) no. 4, pp. 30-46. http://www.numdam.org/item/JSFS_2011__152_4_30_0/

[1] Bastien, P. Régression PLS et données censurées, Conservatoire National des Arts et Métiers, Paris. (2008) (Ph. D. Thesis)

[2] Bastien, P.; Vinzi, V. Esposito; Tenenhaus, M. PLS generalised linear regression, Computational Statistics & Data Analysis, Volume 48 (2005) no. 1, pp. 17-46 | Zbl

[3] Dempster, A. P.; Laird, N. M.; Rubin, D. B. Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society, series B, Volume 39 (1977) no. 1, pp. 1-38 | Zbl

[4] Honaker, J.; King, G. What to Do about Missing Values in Time-Series Cross-Section Data, American Journal of Political Science, Volume 54 (2010) no. 2, pp. 561-581

[5] Henderson, C.R.; Kempthorne, O.; Searle, S.R.; von Krosigk, C.M. The estimation of environmental and genetic trends from records subject to culling, Biometrics, Volume 15 (1959), pp. 192-218 | Zbl

[6] Ibrahim, J.G. Incomplete data in generalized linear models, Journal of the American Statistical Association, Volume 85 (1990), pp. 765-769

[7] Little, R.J.A.; Rubin, D.B. Statistical analysis with missing data, Wiley series in probability and mathematical statistics: Applied probability and statistics, Wiley, 1987 http://books.google.com.gi/books?id=w40QAQAAIAAJ | Zbl

[8] Rubin, D.B. Multiple Imputation for Non-response in Survey, J. Wiley and Sons, New York., Wiley, 1987 http://books.google.com.gi/books?id=w40QAQAAIAAJ | Zbl

[9] Schall, R. Estimation in generalized linear models with random effects, Biometrika, Volume 78 (1991), pp. 719-727 | Zbl

[10] Schafer, J.L. Analysis of Incomplete Multivariate Data, Chapman and Hall, London., Chapman and Hall, 1997 | Zbl

[11] Schafer, J.L.; Yucel, R.M. Fitting multivariate linear mixed models with incomplete data, Proceedings of the Statistical Computing Section of the American Statistical Association., Volume 8 (1998), pp. 177-182

[12] Tenenhaus, M. La régression PLS: théorie et pratique., 1998 | Zbl

[13] Vivien, M.; Sabatier, R. Une extension multi-tabeaux de la régression PLS, Revue de Statistique Appliquée, Volume 49 (2001), pp. 31-54

[14] Westad, F.; Martens, H. Variable selection in NIR based on the significance testing in Partial Least Squares Regression, Journal of Near Infrared Spectroscopy, Volume 8 (1999), pp. 117-124

[15] Wold, S. Path models with latent variables: the non-linear iterative partial least squares (NIPALS) approach, Academic Press., 1975

[16] Wu, C. F. J. On the convergence properties of the EM algorithm, The Annals of Statistics, Volume 11 (1983) no. 1, pp. 95-103 | Zbl