Le tennis, comme de nombreux sports, a pour caractéristiques d’être à la fois simple dans le type de résultat obtenu (victoire de l’un des deux joueurs) et complexe dans les facteurs explicatifs de ce résultat. La collecte des données liées aux matchs de tennis professionnel ne cessant d’augmenter, l’information disponible est de plus en plus précise. Nous avons étudié les propriétés prédictives d’un modèle binomial représentant la victoire d’un joueur sur un autre. Le cadre d’inférence bayésien permet d’utiliser un prior informatif sur la probabilité de victoire (une loi Bêta) afin d’inclure cette information collectée. Nous avons comparé sur l’année 2013 du circuit ATP (et ajusté sur les années 2011-2012) trois méthodes de choix de prior. Les deux premières sont basées sur des modèles à variables latentes (Elo et Bradley-Terry). La troisième est une méthode de simulation de chaque point joué pendant un match reposant sur les statistiques MatchFacts de l’ATP. Chaque méthode est séparée en deux étapes : déterminer la moyenne de la loi a priori sur la base d’information collectée, puis sa variance sur la base des propriétés prédictives du modèle. La deuxième partie de cet article propose plusieurs utilisations possibles de ces méthodes, que cela soit pour la prédiction de matchs, de tournoi ou pour proposer un nouveau système de classement des joueurs.
Tennis is a sport, as many others, that appears to be quite simple in the type of results (victory of one of the two players) but rather quite complex in factors that leads to this binary outcome. The perpetual evolution and increase of the way to collect data leads to more and more accurate available information about professional tennis matches. We studied the predictive properties of the binomial model representing the victory of one player against the other. Bayesian framework enables the updating of an informative prior distribution on the probability of winning (Beta distribution) by the collected information. After model calibration on the years 2011-2012, we test on the result 2013 of the ATP tour three methodologies for the choice of prior. The two firsts are based on latent variable models (Elo and Bradley-Terry). The third one is a point-by-point game simulation method based on the MatchFact statistics of the ATP. Each method is separated in two steps: specify the mean of the a priori distribution based on gathered data, and then its variance according to predictive characteristics. The second part of this article deals with possible uses of these methods for match result predictions, for whole tournament simulations or to propose a new ranking system for professional tennis players.
Mot clés : tennis, bayésien, prior, modèle binomial, nombre équivalent d’observations, prédiction, classement
@article{JSFS_2015__156_2_25_0, author = {Colin, Pierre and Bechler, Aur\'elien}, title = {Informative prior distributions for a binomial model to predict professional tennis results}, journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique}, pages = {25--37}, publisher = {Soci\'et\'e fran\c{c}aise de statistique}, volume = {156}, number = {2}, year = {2015}, mrnumber = {3372764}, zbl = {1381.62296}, language = {en}, url = {http://www.numdam.org/item/JSFS_2015__156_2_25_0/} }
TY - JOUR AU - Colin, Pierre AU - Bechler, Aurélien TI - Informative prior distributions for a binomial model to predict professional tennis results JO - Journal de la société française de statistique PY - 2015 SP - 25 EP - 37 VL - 156 IS - 2 PB - Société française de statistique UR - http://www.numdam.org/item/JSFS_2015__156_2_25_0/ LA - en ID - JSFS_2015__156_2_25_0 ER -
%0 Journal Article %A Colin, Pierre %A Bechler, Aurélien %T Informative prior distributions for a binomial model to predict professional tennis results %J Journal de la société française de statistique %D 2015 %P 25-37 %V 156 %N 2 %I Société française de statistique %U http://www.numdam.org/item/JSFS_2015__156_2_25_0/ %G en %F JSFS_2015__156_2_25_0
Colin, Pierre; Bechler, Aurélien. Informative prior distributions for a binomial model to predict professional tennis results. Journal de la société française de statistique, Tome 156 (2015) no. 2, pp. 25-37. http://www.numdam.org/item/JSFS_2015__156_2_25_0/
[1] ATP World Tour History (2014) http://www.atpworldtour.com/Corporate/History.aspx
[2] An Essay towards Solving a Problem in the Doctrine of Chances. By the Late Rev. Mr. Bayes, F. R. S. Communicated by Mr. Price, in a Letter to John Canton, A. M. F. R. S., Philosophical Transactions, Volume 53 (1763), pp. 370-418 http://rstl.royalsocietypublishing.org/content/53/370.full.pdf+html | DOI | Zbl
[3] Verification of forecasts expressed in terms of probability, Mon. Wea. Rev., Volume 78 (1950) no. 1, pp. 1-3 | DOI
[4] Rank analysis of incomplete block designs, I. the method of paired comparisons, Biometrika, Volume 39 (1952), pp. 324-345 | MR | Zbl
[5] The Rating of Chessplayers, Past and Present, Arco Pub, 1978
[6] ITF Pro Circuit regulations (2014) ( http://www.itftennis.com/media/163754/163754.pdf )
[7] Individual Choice Behaviours: A Theoretical Analysis, Wiley, 1959 | MR | Zbl
[8] Determining the Effective Sample Size of a Parametric Prior, Biometrics, Volume 64 (2008) no. 2, pp. 595-602 | DOI | MR | Zbl
[9] La Fabuleuse Histoire du tennis (1976)
[10] R: A Language and Environment for Statistical Computing (2013) http://www.R-project.org/
[11] Rating Australian Rules Football Teams With The PlayerRatings Package, R vignette (2012) http://cran.r-project.org/web/packages/PlayerRatings/vignettes/AFLRatings.pdf
[12] Bradley-Terry Models in R: The BradleyTerry2 Package, Journal of Statistical Software, Volume 48 (2012) no. 9, pp. 1-21 http://www.jstatsoft.org/v48/i09