Reconstruction automatique de formulaires d’enquête médicale sur la culture de sécurité des patients par une méthode de factorisation matricielle bayésienne
[Bayesian matrix factorization for reconstruction of removed items in a medical survey]
Journal de la société française de statistique, Volume 159 (2018) no. 2, pp. 111-127.

Some public health surveys suffer from an issue of acceptability among respondents leading to a low response rate. To address this problem, we propose to reduce the length of individual questionnaires by randomly removing items. In order to impute the missing data, we introduce a Bayesian model for data imputation based on non-negative matrix factorization. We propose an inference algorithm combining a Gibbs sampler algorithm and a variational approach. Using the results of a survey on patient safety culture conducted at Grenoble University Hospital, we compare the performance of our new method with several classical approaches, with a random forest method, and with three additional matrix factorization methods. The average reconstruction error is lower than for other methods when the proportion of removed items is high (greater than 40 % ). With lower proportions of removed items (lower than 40 % ), the histograms of the marginal distributions are reconstructed satisfactorily. In this respect, the best performances were obtained with the random forest approach. Overall, our results suggest that similar surveys could be carried out by substantially reducing the number of questions asked to each worker with limited loss of information and interpretation.

Certaines enquêtes de santé publique souffrent d’un problème d’acceptabilité auprès des personnes interrogées, en particulier à cause de la longueur des questionnaires. Pour aborder ce problème, nous proposons de réduire délibérément les questionnaires en les individualisant de manière randomisée. Afin de compléter automatiquement les questionnaires incomplets générés par cette procédure, nous considérons un modèle de factorisation matricielle bayésienne. Pour estimer les paramètres de ce modèle, nous proposons un algorithme combinant un échantillonneur de Gibbs et une approche variationnelle. En utilisant les résultats d’une enquête portant sur la culture de sécurité des patients réalisée au centre hospitalier universitaire de Grenoble auprès de 3888 travailleurs médicaux, nous comparons les performances de notre méthode à plusieurs approches classiques en santé publique, à la méthode des forêts aléatoires, ainsi qu’à trois autres méthodes de factorisation matricielle. L’erreur de reconstruction de notre algorithme est inférieure à celle des autres algorithmes lorsque la proportion d’items supprimés est supérieure à 40 % . Lorsque la proportion d’items supprimés est moins élevée, les histogrammes des lois marginales sont reconstruits de manière satisfaisante. Pour ce second critère, la méthode des forêts aléatoires est la plus performante. En général, nos résultats suggèrent que des enquêtes médicales similaires à celle réalisée pour cet article pourraient réduire substantiellement le nombre de questions posées à chaque travailleur avec une perte d’information limitée pour l’interprétation des résultats.

Mot clés : enquête médicale, données manquantes, reconstruction matricielle, modèle Poisson bayésien, échantillonnage de Gibbs
Keywords: medical survey, missing data, matrix completion, Bayesian Poisson model, Gibbs sampler
@article{JSFS_2018__159_2_111_0,
     author = {Diatta, B. Don Bosco and Ngom, Papa and Boussat, Bastien and Fran\c{c}ois, Olivier},
     title = {Reconstruction automatique de formulaires d{\textquoteright}enqu\^ete m\'edicale sur la culture de s\'ecurit\'e des patients par une m\'ethode de factorisation matricielle bay\'esienne},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {111--127},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {159},
     number = {2},
     year = {2018},
     mrnumber = {3855903},
     zbl = {1406.62136},
     language = {fr},
     url = {http://www.numdam.org/item/JSFS_2018__159_2_111_0/}
}
TY  - JOUR
AU  - Diatta, B. Don Bosco
AU  - Ngom, Papa
AU  - Boussat, Bastien
AU  - François, Olivier
TI  - Reconstruction automatique de formulaires d’enquête médicale sur la culture de sécurité des patients par une méthode de factorisation matricielle bayésienne
JO  - Journal de la société française de statistique
PY  - 2018
SP  - 111
EP  - 127
VL  - 159
IS  - 2
PB  - Société française de statistique
UR  - http://www.numdam.org/item/JSFS_2018__159_2_111_0/
LA  - fr
ID  - JSFS_2018__159_2_111_0
ER  - 
%0 Journal Article
%A Diatta, B. Don Bosco
%A Ngom, Papa
%A Boussat, Bastien
%A François, Olivier
%T Reconstruction automatique de formulaires d’enquête médicale sur la culture de sécurité des patients par une méthode de factorisation matricielle bayésienne
%J Journal de la société française de statistique
%D 2018
%P 111-127
%V 159
%N 2
%I Société française de statistique
%U http://www.numdam.org/item/JSFS_2018__159_2_111_0/
%G fr
%F JSFS_2018__159_2_111_0
Diatta, B. Don Bosco; Ngom, Papa; Boussat, Bastien; François, Olivier. Reconstruction automatique de formulaires d’enquête médicale sur la culture de sécurité des patients par une méthode de factorisation matricielle bayésienne. Journal de la société française de statistique, Volume 159 (2018) no. 2, pp. 111-127. http://www.numdam.org/item/JSFS_2018__159_2_111_0/

[1] Audigier, V; Husson, F; Josse, J MIMCA : multiple imputation for categorical variables with multiple correspondence analysis, Statistics and Computing, Volume 27 (2017) no. 2, pp. 501-518 | MR | Zbl

[2] Bishop, C M Pattern Recognition and Machine Learning, Springer, New York, USA, 2006 | MR | Zbl

[3] Ben Othman Amroussi, L. Conception et validation d’une méthode de complétion des valeurs manquantes fondée sur leurs modèles d'apparition, Université de Caen (2011) (Ph. D. Thesis)

[4] Breiman, Leo Random Forests, Machine Learning, Volume 45 (2001), pp. 5-32 | Zbl

[5] Cemgil, Ali Taylan Bayesian Inference for Nonnegative Matrix Factorisation Models, Computational Intelligence and Neuroscience, Volume 2009 (2009) | DOI

[6] Demissie, S; LaValley, M P; Horton, N J; Glynn, R J; Cupples, L A Bias due to missing exposure data using complete-case analysis in the proportional hazards regression model, Statistic in Medicine, Volume 22 (2003) no. 4, pp. 545-557

[7] Dempster, A P; Laird, N M; Rubin, D B Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society, Volume 39 (1977), pp. 1-38 | MR | Zbl

[8] Etchegaray, Jason M; Thomas, Eric J Comparing two safety culture surveys : safety attitudes questionnaire and hospital survey on patient safety, BMJ Quality and Safety, Volume 21 (2012) no. 6, pp. 490-498

[9] Ghahramani, Z; Beal, M Propagation Algorithms for Variational Bayesian Learning, Advances in Neural Information Processing Systems, MIT Press, Cambridge, Massachusetts, USA (2000), pp. 507-513

[10] Gopalan, P; Charlin, L; Blei, D Content-based recommendations with Poisson factorization, Advances in Neural Information Processing Systems 27 (2014), pp. 3176-3184

[11] Gopalan, Prem; Hofman, Jake M; Blei, David M Scalable recommendation with hierarchical Poisson factorization, UAI’15 Proceedings of the Thirty-First Conference on Uncertainty in Artificial Intelligence, Amsterdam, Netherlands (2015), pp. 326-335

[12] Ghomrawi, H M; Mandl, L A; Rutledge, J; Alexiades, M M; Mazumdar, M Is there a role for expectation maximization imputation in addressing missing data in research using WOMAC questionnaire ? Comparison to the standard mean approach and a tutorial, BMC Musculoskeletal Disorders, Volume 12 (2011) | DOI

[13] Joseph, L; Belisle, P; Tamim, H; Sampalis, J S Selection bias found in interpreting analyses with missing data for the prehospital index for trauma, Journal of Clinical Epidemiology, Volume 57 (2004) no. 2, pp. 147-153

[14] Josse, J; Chavent, M; Liquet, B; Husson, F Handling missing values with Regularized Iterative Multiple Correspondence Analysis, Journal of Classification, Volume 29 (2010) no. 1, pp. 91-116 | MR | Zbl

[15] Josse, J; Husson, F missMDA : a package for handling missing values in multivariate data analysis, Journal of Statistical Software, Volume 70 (2016) no. 1, pp. 1-31

[16] Kim, Y D; Choi, S Weighted nonnegative matrix factorization, IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, Taipei (2009), pp. 1541-1544

[17] Kim, Hyunsoo; Park, Haesun Nonnegative matrix factorization based on alternating nonnegativity constrained least squares and active set method, SIAM Journal on Matrix Analysis and Applications, Volume 30 (2008), pp. 713-730 | MR | Zbl

[18] Kemp, Kyle; Warren, Sarah; Chan, Nancy; McCormack, Brandi; Santana, Maria; Quan, Hude Qualitative complaints and their relation to overall hospital rating using an H-CAHPS-derived instrument, BMJ Quality and Safety, Volume 25 (2016) no. 10, pp. 770-777

[19] Little, R J; D’Agostino, R; Cohen, M L; al The Prevention and Treatment of Missing Data in Clinical Trials, New England Journal of Medicine, Volume 367 (2012), pp. 1355-1360

[20] Little, R J A; Rubin, D B Statistical Analysis with Missing Data. 2nd ed, Wiley, New York, 2002 | MR | Zbl

[21] Little, R J A; Rubin, D B Statistical Analysis with Missing Data, Wiley, New York, 1987 | MR

[22] Lee, D D; Seung, H S Algorithms for Non-negative Matrix Factorization, Advances in neural information processing systems, MIT Press (2001), pp. 556-562

[23] Occelli, P; Quenon, J-L; Kret, M; al Validation of the French version of the Hospital Survey on Patient Safety Culture questionnaire, International Journal for Quality in Health Care, Volume 25 (2013) no. 4, pp. 459-468

[24] Rubin, Donald B Inference in Missing Data, Biometrika, Volume 63 (1976), pp. 581-592 | MR | Zbl

[25] Rotnitzky, A; Wypij, D A note on the bias of estimators with missing data, Biometrics, Volume 50 (1994) no. 4, pp. 1163-1170

[26] Stekhoven, Daniel J; Bühlmann, Peter MissForest-nonparametric missing value imputation for mixed-type data, Bioinformatics, Volume 28 (2011), pp. 112-118

[27] Sorra, J S; Nieva, V F Hospital Survey on Patient Safety Culture. (Prepared by Westat, under Contract No. 290-96-0004), AHRQ Publication No. 04-0041, Rockville, MD : Agency for Healthcare Research and Quality, 2004

[28] Shrive, F M; Stuart, H; Quan, H; Ghali, W A Dealing with missing data in a multi-question depression scale : a comparison of imputation methods, BMC Medical Research Methodology, Volume 6 (2006) | DOI

[29] Streiner, D L Missing data and the trouble with LOCF., Evidence Based Mental Health, Volume 11 (2008) no. 1, pp. 3-5

[30] Van Buuren, Stef; Oudshoorn, Karin Flexible Multivariate Imputation by MICE, TNO Prevention Center, Leiden, The Netherlands (1999), pp. 1-20

[31] Waljee, A K; Mukherjee, A; Singal, A G; al Comparison of imputation methods for missing laboratory data in medicine, BMJ Open, Volume 3 (2013)