Numéro spécial : analyse de mélanges
Bootstrap Validation of the Estimated Parameters in Mixture Models Used for Clustering
[Validation par bootstrap de l’estimation des paramètres d’un modèle de mélange utilisé en classification]
Journal de la société française de statistique, Tome 160 (2019) no. 1, pp. 114-129.

Lorsqu’un modèle de mélange est utilisé en classification, l’incertitude est liée au choix du modèle optimal (y compris le nombre de groupes) et à l’estimation de ses paramètres. Nous discutons ici du calcul d’intervalles de confiance en utilisant différentes approches bootstrap qui mélangent ou au contraire séparent ces deux types d’incertitude. En particulier, nous suggérons deux nouvelles approches qui dépendent en partie de la spécification du modèle considéré comme optimal par le chercheur, et qui répondent spécifiquement à l’incertitude liée à l’estimation des paramètres. Ces méthodes sont spécialement utiles lorsque les données sont mal séparées ou lorsque le modèle à estimer est complexe et que la solution choisie se révèle difficile à reproduire dans chaque échantillon bootstrap. De plus, elles présentent l’avantage de réduire le problème du label-switching. Deux simulations basées sur le modèle Hidden Mixture Transition Distribution adapté à la classification de données longitudinales illustrent nos propositions.

When a mixture model is used to perform clustering, the uncertainty is related both to the choice of an optimal model (including the number of clusters) and to the estimation of the parameters. We discuss here the computation of confidence intervals using different bootstrap approaches, which either mix or separate the two kinds of uncertainty. In particular, we suggest two new approaches that rely to some degree on the model specification considered as optimal by the researcher, and that address specifically the uncertainty related to parameter estimation. These methods are especially useful for poorly separated data or complex models, where the selected solution is difficult to recreate in each bootstrap sample, and they present the advantage of reducing the well-known label-switching issue. Two simulation experiments based on the Hidden Mixture Transition Distribution model for the clustering of longitudinal data illustrate our proposed bootstrap approaches.

Mots clés : classification, modèle de mélange, bootstrap, incertitude, label-switching, intervalle de confiance, estimation fréquentiste, modèle HMTD
     Taushanov, Zhivko and Berchtold, André
     title = {Bootstrap {Validation} of the {Estimated} {Parameters} in {Mixture} {Models} {Used} for {Clustering}},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {114--129},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {160},
     number = {1},
     year = {2019},
     zbl = {1432.62191},
     mrnumber = {3928542},
     language = {en},
     url = {}
Taushanov, Zhivko
Berchtold, André
AU  - Berchtold, André
TI  - Bootstrap Validation of the Estimated Parameters in Mixture Models Used for Clustering
JO  - Journal de la société française de statistique
PY  - 2019
DA  - 2019///
SP  - 114
EP  - 129
VL  - 160
IS  - 1
PB  - Société française de statistique
UR  -
UR  -
UR  -
LA  - en
ID  - JSFS_2019__160_1_114_0
ER  - 
