Sélection de modèle : de la théorie à la pratique
Journal de la Société française de statistique & Revue de statistique appliquée, Volume 149 (2008) no. 4, pp. 5-27.

Since the seminal work of Akaike in the early seventies, optimizing some penalized empirical criterion such as the penalized log-likelihood has become a classical solution to the problem of choosing a proper statistical model from the data. For many model selection problems such as multiple change-point detection and variable selection for instance, it is desirable to let the dimension or the number of models of a given dimension grow with the sample size. A non asymptotic theory for model selection has therefore emerged during these last ten years in order to take this type of situations into account. The main issue both from a practical and a theoretical view point is to understand how to penalize an empirical criterion such as the log-likelihood in order to get some optimal selection procedure. Asymptotic theory provides some useful indications on the shape of the penalty but it often leaves to the user the choice of numerical constants. The optimal value for these constants is generally unknown. In some situations theory is indeed not sharp enough to lead to explicit values. In some other cases, the problem is more of a statistical nature since according to the theory, the optimal value should depend on the unknown distribution of the observations. Our purpose here is to promote some data-driven method to calibrate the penalty. This method is partly based on preliminary theoretical results that we shall recall and partly founded on some heuristics that we intend to explain.

Pour choisir un modèle statistique à partir des données, une méthode devenue classique depuis les travaux précurseurs d'Akaike dans les années 70 consiste à optimiser un critère empirique pénalisé, tel que la log-vraisemblance pénalisée. Dans bon nombre de problèmes de sélection de modèle tels que la sélection de variables ou la détection de ruptures multiples par exemple, il est souhaitable de laisser croitre la taille des modèles ou encore le nombre de modèles d'une dimension donnée avec le nombre d'observations. Une théorie non asymptotique de la sélection de modèles a donc émergé durant ces dix dernières années qui vise à prendre en compte ce type de situations. L'enjeu central aussi bien sur le plan théorique que pratique est de comprendre comment pénaliser un critère de type log-vraisemblance de façon à garantir une performance de sélection optimale. La théorie non asymptotique donne des indications sur la structure des pénalités qu'il convient d'utiliser mais n'est parfois pas suffisamment précise pour arbitrer la valeur de certaines constantes qui restent donc à calibrer au moment d'implémenter effectivement ce type de critères. Ces constantes peuvent être inconnues pour des raisons diverses. Il peut s'agir d'une faiblesse de la théorie qui garantit l'existence d'une constante absolue mais sans en donner la valeur numérique. Le problème peut être également de nature plus profondément statistique lorsque cette constante dépend objectivement de la loi inconnue des observations. Notre propos est ici de promouvoir une méthode de calibration de pénalité à partir des données. Cette méthode est en partie fondée sur des résultats théoriques établis et en partie sur une heuristique permettant de l'extrapoler à d'autres cadres que le cadre strict dans lequel la théorie permet de la valider.

Mot clés : détection de ruptures, inégalités de concentration, pénalisation, processus empiriques, sélection de modèle, sélection de variables
Keywords: change point detection, concentration inequalities, empirical processes, model selection, penalization, variable selection
@article{JSFS_2008__149_4_5_0,
     author = {Massart, Pascal},
     title = {S\'election de mod\`ele : de la th\'eorie \`a la pratique},
     journal = {Journal de la Soci\'et\'e fran\c{c}aise de statistique & Revue de statistique appliqu\'ee},
     pages = {5--27},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {149},
     number = {4},
     year = {2008},
     language = {fr},
     url = {http://www.numdam.org/item/JSFS_2008__149_4_5_0/}
}
TY  - JOUR
AU  - Massart, Pascal
TI  - Sélection de modèle : de la théorie à la pratique
JO  - Journal de la Société française de statistique & Revue de statistique appliquée
PY  - 2008
SP  - 5
EP  - 27
VL  - 149
IS  - 4
PB  - Société française de statistique
UR  - http://www.numdam.org/item/JSFS_2008__149_4_5_0/
LA  - fr
ID  - JSFS_2008__149_4_5_0
ER  - 
%0 Journal Article
%A Massart, Pascal
%T Sélection de modèle : de la théorie à la pratique
%J Journal de la Société française de statistique & Revue de statistique appliquée
%D 2008
%P 5-27
%V 149
%N 4
%I Société française de statistique
%U http://www.numdam.org/item/JSFS_2008__149_4_5_0/
%G fr
%F JSFS_2008__149_4_5_0
Massart, Pascal. Sélection de modèle : de la théorie à la pratique. Journal de la Société française de statistique & Revue de statistique appliquée, Volume 149 (2008) no. 4, pp. 5-27. http://www.numdam.org/item/JSFS_2008__149_4_5_0/

[1] Akaike H. (1973). Information theory and an extension of the maximum likelihood principle. In P.N. Petrov and F. Csaki, editors, Proceedings 2nd International Symposium on Information Theory. pages 267-281. Akademia Kiado, Budapest. | MR | Zbl

[2] Arlot S. (2007). Model selection by resampling penalization. arXiv :math/0701542v2

[3] Arlot S. (2008). V-fold cross-validation improved : V-fold penalization. arXiv :0802.0566v2

[4] Arlot S. and Massart P. (2008). Data-driven calibration of penalties for least-squares regression. arXiv :0802.0837v2.

[5] Baraud Y. (2000). Model selection for regression on a fixed design. Probability Theory and Related Fields 117, no 4 467-493. | MR | Zbl

[6] Bahadur R.R. (1958). Examples of inconsistency of maximum likelihood estimates. Sankhya Ser.A 20, 207-210. | MR | Zbl

[7] Baraud Y., Comte F. and Viennet G. (2001). Model selection for (auto-) regression with dependent data. ESAIM : Probability and Statistics 5, 33-49. http://www.emath.fr/ps/. | Numdam | MR | Zbl

[8] Barron A.R., Birgé L., Massart P. (1999). Risk bounds for model selection via penalization. Probab. Th. Rel. Fields. 113, 301-415 . | MR | Zbl

[9] Birgé L. and Massart P. (1993). Rates of convergence for minimum contrast estimators. Probab. Th. Relat. Fields 97, 113-150. | MR | Zbl

[10] Birgé L. and Massart P. (1997). From model selection to adaptive estimation. In Festschrift for Lucien Lecam : Research Papers in Probability and Statistics (D. Pollard, E. Torgersen and G. Yang, eds.), 55-87, Springer-Verlag, New-York. | MR | Zbl

[11] Birgé L. and Massart P. (2001). Gaussian model selection. Journal of the European Mathematical Society, no 3 , 203-268. | MR | Zbl

[12] Birgé L., Massart P. (2007). Minimal penalties for Gaussian model selection. Probab. Th. Rel. Fields 138, no 1-2, 33-73. | MR | Zbl

[13] Boucheron S., Bousquet O., Lugosi G., Massart P. (2005). Moment inequalities for functions of independent random variables. Ann. of Probability 33, no 2, 514-560. | MR | Zbl

[14] Boucheron S. and Massart P. (en préparation). A poor man's Wilks phenomenon.

[15] Bousquet O. (2002). A Bennett concentration inequality and its application to suprema of empirical processes. C.R. Math. Acad. Sci. Paris 334, no 6, 495-500. | MR | Zbl

[16] Castellan G. (2003). Density estimation via exponential model selection. IEEE Trans. Inform. Theory 49, no 8, 2052-2060. | MR

[17] Daniel C. and Wood F.S. (1971). Fitting Equations to Data. Wiley, New York. | Zbl

[18] Donoho D.L. and Johnstone I.M. (1994). Ideal spatial adaptation by wavelet shrinkage. Biometrika 81, 425-455. | MR | Zbl

[19] Efron B., Hastie T., Johnstone I. and Tibshirani R. (2004). Least angle regression. Ann. Statist. 32 no 2, 407-499. | MR | Zbl

[20] Lebarbier E. (2005). Detecting multiple change-points in the mean of Gaussian process by model selection. Signal Processing 85, no 4, 717-736. | Zbl

[21] Ledoux M. (1996). On Talagrand deviation inequalities for product measures. ESAIM : Probability and Statistics 1, 63-87. http ://www.emath.fr/ps/. | Numdam | MR | Zbl

[22] Le Pennec E. and Mallat S. (2005). Sparse Geometric Image Representation with Bandelets. IEEE Trans. on Image Processing 14, no 4, 423-438. | MR

[23] Loubes J.M., Massart P. (2004). Discussion to Least Angle Regression. Ann. of Statistics 32, no 2, 476-482. | MR

[24] Mallat S. (1999 ). A Wavelet Tour of Signal Processing. Academic Press. | MR | Zbl

[25] Mallows C.L. (1973). Some comments on C p . Technometrics 15, 661-675. | Zbl

[26] Massart P. (2000). About the constants in Talagrand's concentration inequalities for empirical processes. Ann. of Probability 28, no 2, 863-884. | MR | Zbl

[27] Massart P. (2007). Concentration inequalities and model selection. In Lectures on Probability Theory and Statistics, École d'Été de Probabilités de St-Flour XXXIII-2003 (J. Picard, ed.). Lecture notes in Mathematics no 1896, Springer, Berlin. | MR

[28] Reynaud-Bouret P. (2003). Adaptive estimation of the intensity of inhomogeneous Poisson processes via concentration inequalities. Probab. Theory Relat. Fields 126, no 1, 103-153. | MR | Zbl

[29] Schwartz G. (1978). Estimating the dimension of a model. Ann. of Statistics 6, 461-464. | MR | Zbl

[30] Talagrand M. (1996). New concentration inequalities in product spaces. Invent. Math. 126, 505-563. | MR | Zbl

[31] Vapnik V.N. (1982). Estimation of dependencies based on empirical data. Springer, New York. | MR | Zbl