Indices de sensibilité, sélection de paramètres et erreur quadratique de prédiction : des liaisons dangereuses ?
Journal de la société française de statistique, Tome 152 (2011) no. 1, pp. 26-48.

Lorsqu’un modèle contient un grand nombre de paramètres, l’analyse de sensibilité globale est souvent utilisée pour sélectionner les paramètres à estimer parmi ceux identifiés comme les plus influents. Une telle procédure sélection est basée sur des données simulées et se distingue de la procédure de validation du modèle qui est basée sur des données réelles. Néanmoins, ces deux procédures sont liées dans leurs objectifs et il est intéressant d’évaluer les bénéfices de la sélection par analyse de sensibilité à l’aide des critères EQMP (Erreur Quadratique Moyenne de Prédiction) et EQM (Erreur Quadratique Moyenne). Dans cet article, nous formalisons d’abord la démarche consistant à sélectionner les paramètres à estimer par analyse de sensibilité et à fixer les autres paramètres à leur valeur nominale. Dans le cadre du modèle linéaire, nous explicitons ensuite, de façon exacte, les liens formels qui existent entre les indices de sensibilité des paramètres et la qualité de prédiction mesurée par les critères d’évaluation EQM et EQMP. Nous complétons ces résultats par des simulations pour étudier l’impact sur la qualité prédictive du modèle, d’une part du plan d’expériences (variables d’entrées du modèle), d’autre part du point où l’analyse de sensibilité est effectuée. Dans ces simulations, l’approche de sélection de paramètres par analyse de sensibilité est comparée à la méthode LASSO qui sert de référence pour sélectionner des modèles creux. Les résultats montrent qu’estimer les paramètres les plus influents contribue à la réduction de l’EQM et de l’EQMP mais que cette réduction n’est pas systématique. En effet, la relation entre l’EQMP et les indices de sensibilité est complexe et elle dépend fortement du plan d’expériences. Par exemple, seul un plan d’expériences orthogonal garantit une réduction systématique de l’EQMP. De plus, les résultats dépendent des points supports de l’analyse de sensibilité. La performance de la sélection des paramètres par l’analyse de sensibilité est équivalente à celle de LASSO en termes de l’EQMP si nous disposons a priori des connaissances pertinentes sur le degré d’incertitudes des différents paramètres pour conduire l’analyse de sensibilité. Les conséquences pratiques des résultats font l’objet d’une discussion en fin d’article.

When a model contains a large number of parameters, sensitivity analysis is often used to select the parameters to be estimated among those identified as the most influent. This selection procedure is based on simulated data and is different from the model validation procedure that is based on real data. Nevertheless, these two processes are interrelated in their objectives and it is interesting to quantify the benefit of this practice in terms of MSEP (Mean Square Error of Prediction) and MSE (Mean Square Error) criteria. In this paper, we investigate the relationship between the model validation criteria and the sensitivity indices. We first formalize the process of selecting the parameters to be estimated by sensitivity analysis and of fixing other parameters at their nominal value. Under the linear model, we show an explicit relationship between the sensitivity indices of model parameters and the model quality criteria such as MSE and MSEP. We also study the impact on prediction quality of both the design of experiments (input variables of the model) and the point where sensitivity analysis is performed. In these simulations, we compare the procedure of parameters selection by sensitivity indices and the LASSO method well suited for sparse model. The results show that estimating the most influent parameters reduces the MSE and the MSEP all things being equal. However this reduction is not systematic. Indeed, the relationship between MSEP and sensitivity indices is complex and depends heavily on experimental design. For example, only an orthogonal experimental design ensures a systematic reduction of MSEP. Moreover, the results depend on the support points of sensitivity analysis. The performance of the parameters selection by sensitivity analysis is equivalent to that of LASSO in terms of MSEP if we have relevant prior knowledge on the degree of uncertainty in different parameters to perform the sensitivity analysis. The practical implications of the results are discussed at the end of the paper.

Mot clés : analyse de sensibilité globale, EQM, EQMP, LASSO, plan d’expériences, sélection des paramètres
Keywords: global sensitivity analysis, MSE, MSEP, LASSO, design of experiments, parameter selection
@article{JSFS_2011__152_1_26_0,
     author = {Lamboni, Matieyendou and Makowski, David and Monod, Herv\'e},
     title = {Indices de sensibilit\'e, s\'election de param\`etres et erreur quadratique de pr\'ediction~: des liaisons dangereuses~?},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {26--48},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {152},
     number = {1},
     year = {2011},
     mrnumber = {2807169},
     zbl = {1316.62081},
     language = {fr},
     url = {http://www.numdam.org/item/JSFS_2011__152_1_26_0/}
}
TY  - JOUR
AU  - Lamboni, Matieyendou
AU  - Makowski, David
AU  - Monod, Hervé
TI  - Indices de sensibilité, sélection de paramètres et erreur quadratique de prédiction : des liaisons dangereuses ?
JO  - Journal de la société française de statistique
PY  - 2011
SP  - 26
EP  - 48
VL  - 152
IS  - 1
PB  - Société française de statistique
UR  - http://www.numdam.org/item/JSFS_2011__152_1_26_0/
LA  - fr
ID  - JSFS_2011__152_1_26_0
ER  - 
%0 Journal Article
%A Lamboni, Matieyendou
%A Makowski, David
%A Monod, Hervé
%T Indices de sensibilité, sélection de paramètres et erreur quadratique de prédiction : des liaisons dangereuses ?
%J Journal de la société française de statistique
%D 2011
%P 26-48
%V 152
%N 1
%I Société française de statistique
%U http://www.numdam.org/item/JSFS_2011__152_1_26_0/
%G fr
%F JSFS_2011__152_1_26_0
Lamboni, Matieyendou; Makowski, David; Monod, Hervé. Indices de sensibilité, sélection de paramètres et erreur quadratique de prédiction : des liaisons dangereuses ?. Journal de la société française de statistique, Tome 152 (2011) no. 1, pp. 26-48. http://www.numdam.org/item/JSFS_2011__152_1_26_0/

[1] Azaïs, J.-M.; Bardet, J.-M. Le modèle linéaire par l’exemple : régression, analyse de la variance et plans d’expériences illustrés par R, SAS et Splus, Dunod, Paris, 2005

[2] Allen, D. M. Mean square error of prediction as a criterion for selecting variables, Technometrics, Volume 13 (1971), pp. 469-475 | Zbl

[3] Butterbach-Bahl, K.; Kesik, M.; Miehle, P.; Papen, H.; Li, C. Quantifying the regional source strength of N-trace gases across agricultural and forest ecosystems with process based models, Plant and Soil, Volume 260 (2004), pp. 311-329

[4] Bechini, L.; Bocchi, S.; Maggiore, T.; Confalonieri, R. Parameterization of a crop growth and development simulation model at sub model component level. An example for winter wheat (Triticum aestivum L.), Environmental Modelling & Software, Volume 21 (2006), pp. 1042-1054

[5] Brun, R.; Kuhni, M.; Siegrist, H.; Gujer, W.; Reichert, P. Practical identifiability of ASM2d parameters - systematic selection and tuning of parameter subsets, Water Research, Volume 36 (2002), pp. 4113-4127

[6] Brun, R.; Reichert, P.; Kunsch H., R. Practical identifiability of large environmental simulation models, Water Resources Research, Volume 37 (2001), pp. 1015-1030

[7] Chan, K.; Tarantola, S.; Saltelli, A.; Sobol, I. M. Variance-based methods, Sensitivity Analysis (Saltelli, A.; Chan, K.; Scott, E. M., eds.) (Probability and Statistics), Wiley, 2000 | MR

[8] de Rocquigny, E. La maîtrise des incertitudes dans un contexte industriel. 1ère partie : une approche méthodologique globale basée sur des exemples, Journal de la Société Française de Statistique, Volume 147 (2006), pp. 33-71 | Numdam | MR | Zbl

[9] de Rocquigny, E. La maîtrise des incertitudes dans un contexte industriel. 2ème partie : revue des méthodes de modélisation statistique, physique et numérique, Journal de la Société Française de Statistique, Volume 147 (2006), pp. 73-106 | Numdam | MR | Zbl

[10] Efron, B.; Hastie, T.; Johnstone, I.; Tibshirani, R Least angle regression, Annals of Statistics, Volume 32 (2004), pp. 407-451 | MR | Zbl

[11] Frank, I.E.; Friedman, J. H. A statistical view of some chemometrics regression tools (with discussion), Technometrics, Volume 35 (1993), pp. 109-148 | Zbl

[12] Fort, G.; Lambert-Lacroix, S.; Peyre, J. Réduction de la dimension dans les modàles linéaires généralisés : application à la classification supervisée de données issues des biopuces, Journal de la Société Française de Statistique, Volume 146 (2005), pp. 117-152 | Numdam

[13] Hoerl, A.E.; Kennard, R.W. Ridge regression based estimation for nonorthogonal problems, Technometrics, Volume 12 (1970), pp. 55-67 | Zbl

[14] Kennedy, M.C.; O’Hagan, A. Bayesian calibration of computer models, Journal of the Royal Statistical Society, Volume 63 (2001), pp. 425-464 | MR | Zbl

[15] Kobilinsky, A. Les plans factoriels, Plans d’expériences. Applications à l’entreprise (Droesbeke, J.-J.; Fine, J.; Saporta, G., eds.), Technip, Paris, 1997, pp. 69-209 | MR

[16] Lamboni, M.; Makowski, D.; Lehuger, S.; Gabrielle, B.; Monod, H. Multivariate global sensitivity analysis for dynamic crop models, Field Crops Research, Volume 113 (2009), pp. 312-320

[17] Makowski, D.; Naud, C.; Jeuffroy, M.H.; Barbottin, A.; Monod, H Global sensitivity analysis for calculating the contribution of genetic parameters to the variance of crop model prediction, Reliability Engineering and System Safety, Volume 91 (2006), pp. 1142-1147

[18] Monod, H.; Naud, C.; Makowski, D. Uncertainty and sensitivity analysis for crop models, Working with Dynamic Crop Models (Wallach, D.; Makowski, D.; Jones, J., eds.), Elsevier, Amsterdam, 2006, pp. 55-100

[19] Perrin, C.; Michel, C.; Andreassian, V. Does a large number of parameters enhance model performance ? Comparative assessment of common catchment model structure on 429 catchments, Journal of Hydrology, Volume 242 (2001), pp. 275-301

[20] R Development Core Team R : a language and environment for statistical computing, R Foundation for Statistical Computing, Austria, 2008

[21] Robert, C. P. Le choix bayésien, principes et pratique, Statistique et Probabilités Appliquées, Springer, 2006, 638 pages | Zbl

[22] Saporta, G. Probabilité, Analyse des Données et Statistique, Technip, 2006, pp. 1-622 | Zbl

[23] Sobol, I.M. Sensitivity analysis for non-linear mathematical model, Mathematical Modelling and Computational Experiments, Volume 1 (1993), pp. 407-414 | MR | Zbl

[24] Saltelli, A.; Ratto, M.; Andres, T.; Campolongo, F.; Cariboni, J.; Gatelli, D.; Saisana, M.; Tarantola, S. Global Sensitivity Analysis : The Primer, Wiley, 2008 | MR | Zbl

[25] Stone, M. Cross-validatory choice and assessment of statistical predictions (with discussion), Journal of the Royal Statistical Society B, Volume 36 (1974), pp. 111-147 | MR | Zbl

[26] Tibshirani, R. Regression shrinkage and selection via the LASSO, Journal of the Royal Statistical Society B, Volume 58 (1996), pp. 267-288 | Zbl

[27] Wallach, D.; Goffinet, B.; Bergez, J.-E.; Debaeke, P.; Leenhardt, D.; Aubertot, J.-N. Parameter estimation for crop models : a new approach and application to a corn model, Agronomy Journal, Volume 93 (2001), pp. 757-766

[28] Wallach, D.; Goffinet, B.; Bergez, J.-E.; Debaeke, P.; Leenhardt, D.; Aubertot, J.-N. The effect of parameter uncertainty on a model with adjusted parameters, Agronomie, Volume 22 (2002), pp. 159-170

[29] Yang, Y. Consistency of cross validation for comparing regression procedures, The Annals of Statistics, Volume 35 (2007), pp. 2450-2473 | Zbl

[30] Zou, H.; Hastie, T. Regularization and variable selection via the elastic net, Journal of the Royal Statistical Society B, Volume 67 (2005), pp. 301-320 | Zbl