[Optimal allocation of primary units for multistage sampling: an application to tariff fraud for SNCF]
The SNCF performs daily controls on customers to identify and regulate the non-regular travelers. The controls are quite common on trains with compulsory reservation but are not exhaustive, so that the fraud may not be precisely measured. This phenomenon leads to significant financial loss that the SNCF wants to accurately estimate, based on data collected during controls on trains.
The first goal of this work is to propose a modeling of the sampling mechanism leading to the controled travelers, so as to estimate the loss associated with fraud. The controled passengers are selected through multistage sampling: a particular difficulty lies in the definition of the units sampled at the various stages. This modeling step enables to measure the accuracy of estimates, based on historical data collection. The second goal is to propose an optimized selection scheme for further controls, which requires the computation of a Neyman-type allocation for multistage sampling.
La SNCF réalise quotidiennement des contrôles auprès de ses clients afin de régulariser les voyageurs en situation irrégulière. Même si les contrôles sont très fréquents à bord des trains à réservation obligatoire, ils ne sont pas exhaustifs ; dans ce cas la fraude peut être opérante et non mesurée. Ce phénomène génère une perte financière importante que la SNCF souhaite évaluer avec précision en s’appuyant sur les données collectées lors des opérations de contrôle à bord des trains.
Le premier objectif de ce travail est de proposer une modélisation du mécanisme d’échantillonnage conduisant au contrôle, afin d’estimer la perte liée à la fraude tarifaire. La sélection de l’échantillon de voyageurs contrôlés est réalisée selon un plan à plusieurs degrés ; une difficulté particulière réside dans la définition des unités échantillonnées. Cette étape de modélisation permet de produire une estimation de la précision des estimations réalisées à l’aide des données historiques de régularisations. Le second objectif est de proposer un mécanisme de contrôle ultérieur optimisé, qui passe par le calcul d’une allocation de type Neyman pour un plan de sondage à plusieurs degrés.
Keywords: multistage sampling, optimal allocation
@article{JSFS_2011__152_4_47_0, author = {Chandesris, Maguelonne and Chauvet, Guillaume and Deville, Jean-Claude}, title = {Allocation optimale d{\textquoteright}unit\'es primaires pour un plan \`a plusieurs degr\'es~: application \`a l{\textquoteright}estimation de la fraude tarifaire grandes lignes \`a la {SNCF}}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {47--59}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {152}, number = {4}, year = {2011}, zbl = {1316.62173}, language = {fr}, url = {http://www.numdam.org/item/JSFS_2011__152_4_47_0/} }
TY - JOUR AU - Chandesris, Maguelonne AU - Chauvet, Guillaume AU - Deville, Jean-Claude TI - Allocation optimale d’unités primaires pour un plan à plusieurs degrés : application à l’estimation de la fraude tarifaire grandes lignes à la SNCF JO - Journal de la société française de statistique PY - 2011 SP - 47 EP - 59 VL - 152 IS - 4 PB - Société française de statistique UR - http://www.numdam.org/item/JSFS_2011__152_4_47_0/ LA - fr ID - JSFS_2011__152_4_47_0 ER -
%0 Journal Article %A Chandesris, Maguelonne %A Chauvet, Guillaume %A Deville, Jean-Claude %T Allocation optimale d’unités primaires pour un plan à plusieurs degrés : application à l’estimation de la fraude tarifaire grandes lignes à la SNCF %J Journal de la société française de statistique %D 2011 %P 47-59 %V 152 %N 4 %I Société française de statistique %U http://www.numdam.org/item/JSFS_2011__152_4_47_0/ %G fr %F JSFS_2011__152_4_47_0
Chandesris, Maguelonne; Chauvet, Guillaume; Deville, Jean-Claude. Allocation optimale d’unités primaires pour un plan à plusieurs degrés : application à l’estimation de la fraude tarifaire grandes lignes à la SNCF. Journal de la société française de statistique, Volume 152 (2011) no. 4, pp. 47-59. http://www.numdam.org/item/JSFS_2011__152_4_47_0/
[1] Sampling Techniques, Wiley, 1977 | Zbl
[2] Variance estimation for complex statistics and estimators : linearization and residual techniques, Survey Methodology, Volume 25 (1999), pp. 193-203
[3] Nonlinear programming, Proceedings of 2nd Berkeley Symposium, University of California Press (1951), pp. 481-492 | Zbl
[4] Inference under informative sampling, Handbook of Statistics, Volume 29B, Pfeffermann, D., and Rao, C.R. (2009), pp. 455-487
[5] Théorie des sondages : échantillonnage et estimation en population finie, Dunod, 2001