Numéro spécial : analyse des données fonctionnelles
Modèle linéaire de prédiction fonctionnelle sur données environnementales : choix de modélisation
Journal de la société française de statistique, Tome 155 (2014) no. 2, pp. 121-137.

L’analyse de données fonctionnelles est devenue ces dernières années un champ d’étude important en statistiques, car de plus en plus de données observées dans différents domaines se trouvent sous forme de courbes (météorologie, économie, ...). Un des outils de l’analyse de données fonctionnelles est le modèle linéaire « pleinement » fonctionnel, qui est utilisé dans le cas où la variable à prédire et la variable prédictive sont toutes les deux des courbes. Ce modèle a fait l’objet de recherches théoriques approfondies, mais les applications l’utilisant restent peu nombreuses à ce jour. Nous proposons dans cet article une démarche méthodologique à travers un exemple d’application de ce modèle sur des profils océanographiques de lumière et de Chlorophylle a. Il est utilisé ici pour prédire des profils de Chlorophylle a à partir des dérivées des profils de luminosité. La démarche méthodologique permet de clarifier les choix de modélisation que nous avons eu à faire pour traiter les profils océanographiques. Les questionnements à travers notre étude de cas concernent entre autres le choix du type et du nombre de fonctions de base à utiliser, le choix de la valeur du paramètre de lissage, ainsi que le critère pour évaluer la qualité de l’ajustement. Nous montrons que l’utilisation du modèle linéaire fonctionnel permet d’obtenir une bonne qualité de reconstruction pour accéder aux variations hautes fréquences des profils de Chlorophylle a à fine échelle.

Functional data analysis (FDA) has become in recent years an important field in statistics, because more data observed in different domains are in the shape of curves (meteorology, economics, linguistics, ...). One tool in FDA is the fully functional linear model, which is used in the particular case where the variable to be predicted and the predictor are both curves. This model has been the subject of extensive theoretical research, but applications using it are few in number to date. We propose in this paper a methodological approach through an application of this model on light and Chlorophyll a oceanographic profiles. It is used here to predict Chlorophyll a profiles from derivatives of light data. The methodological approach helps to clarify modeling choices necessary to treat oceanographic profiles. Questions through our case study include the choice of the type and the number of basis functions to use, the choice of the value of the smoothing parameter and the goodness of fit criterion. We show that the utilisation of the functional linear model provides a good quality of reconstruction to access high frequency variations of Chlorophyll a profiles at fine scale.

Mot clés : Analyse de données fonctionnelle, modèle linéaire fonctionnel, splines, Chlorophylle a, luminosité
Keywords: Functional data analysis, functional linear model, splines, Chlorophyll a, light
@article{JSFS_2014__155_2_121_0,
     author = {Bayle, S\'everine and Monestiez, Pascal and Nerini, David},
     title = {Mod\`ele lin\'eaire de pr\'ediction fonctionnelle sur donn\'ees environnementales~: choix de mod\'elisation},
     journal = {Journal de la soci\'et\'e fran\c{c}aise de statistique},
     pages = {121--137},
     publisher = {Soci\'et\'e fran\c{c}aise de statistique},
     volume = {155},
     number = {2},
     year = {2014},
     zbl = {1316.62002},
     language = {fr},
     url = {http://www.numdam.org/item/JSFS_2014__155_2_121_0/}
}
TY  - JOUR
AU  - Bayle, Séverine
AU  - Monestiez, Pascal
AU  - Nerini, David
TI  - Modèle linéaire de prédiction fonctionnelle sur données environnementales : choix de modélisation
JO  - Journal de la société française de statistique
PY  - 2014
SP  - 121
EP  - 137
VL  - 155
IS  - 2
PB  - Société française de statistique
UR  - http://www.numdam.org/item/JSFS_2014__155_2_121_0/
LA  - fr
ID  - JSFS_2014__155_2_121_0
ER  - 
%0 Journal Article
%A Bayle, Séverine
%A Monestiez, Pascal
%A Nerini, David
%T Modèle linéaire de prédiction fonctionnelle sur données environnementales : choix de modélisation
%J Journal de la société française de statistique
%D 2014
%P 121-137
%V 155
%N 2
%I Société française de statistique
%U http://www.numdam.org/item/JSFS_2014__155_2_121_0/
%G fr
%F JSFS_2014__155_2_121_0
Bayle, Séverine; Monestiez, Pascal; Nerini, David. Modèle linéaire de prédiction fonctionnelle sur données environnementales : choix de modélisation. Journal de la société française de statistique, Tome 155 (2014) no. 2, pp. 121-137. http://www.numdam.org/item/JSFS_2014__155_2_121_0/

[1] Abraham, C.; Cornillon, P.-A.; Matzner-Løber, E.; Molinari, N. Unsupervised Curve Clustering using B-Splines, Scandinavian Journal of Statistics, Volume 30 (2003) no. 3, pp. 581-595 | Zbl

[2] Biuw, M.; Boehme, L.; Guinet, C.; Hindell, M.; Costa, M.; Charrassin, J.-B.; Roquet, F.; Bailleul, F.; Meredith, M.; Thorpe, S.; Tremblay, Y.; McDonald, B.; Park, Y.-H.; Rintoul, S.R.; Bindoff, N.; Goebel, M.; Crocker, D.; Lovell, P.; Nicholson, J.; Monks, F.; Fedak, M. A. Variations in behavior and condition of a Southern Ocean top predator in relation to in situ oceanographic conditions, Proceedings of the National Academy of Sciences, Volume 104 (2007) no. 34, pp. 13705-13710

[3] Besse, P.; Cardot, H. 6, Modélisation statistique de données fonctionnelles (Traitement du Signal et de l’Image), Lavoisier (2003), pp. 169-200

[4] Besse, Ph.; Cardot, H. Approximation spline de la prévision d’un processus fonctionnel autorégressif d’ordre 1, Canadian Journal of Statistics, Volume 24 (1996) no. 4, pp. 467-487 | Zbl

[5] Block, B.A.; Costa, D.P.; Boehlert, G.W.; Kochevar, R.E. Revealing pelagic habitat use : the tagging of Pacific pelagics program, Oceanologica Acta, Volume 25 (2002) no. 5, pp. 255-266

[6] Boehlert, G.W.; Costa, D.P.; Crocker, D.E.; Green, P.; O’Brien, T.; Levitus, S.; Le Boeuf, B.J. Autonomous pinniped environmental samplers : using instrumented animals as oceanographic data collectors, Journal of atmospheric and oceanic technology, Volume 18 (2001) no. 11, pp. 1882-1893

[7] Bosq, D. Linear processes in function spaces : theory and applications, 149, Springer, 2000 | Zbl

[8] Bouguer, P. Essai d’optique sur la gradation de la lumière (Jombert, Claude, ed.), Claude Jombert, Paris, 1729

[9] Brumback, B.A.; Rice, J.A. Smoothing Spline Models for the Analysis of Nested and Crossed Samples of Curves, Journal of the American Statistical Association, Volume 93 (1998) no. 443, pp. 961-976 | Zbl

[10] Cuevas, A.; Febrero, M.; Fraiman, R. Linear functional regression : the case of fixed design and functional response, Canadian Journal of Statistics, Volume 30 (2002) no. 2, pp. 285-300 | Zbl

[11] Cardot, H.; Ferraty, F.; Sarda, P. Spline estimators for the functional linear model, Statistica Sinica, Volume 13 (2003), pp. 571-591 | Zbl

[12] Cardot, H.; Ferraty, F.; Sarda, P. Functional linear model, Statistics & Probability Letters, Volume 45 (1999), pp. 11-22 | Zbl

[13] Charrassin, J.B.; Hindell, M.; Rintoul, S.R.; Roquet, F.; Sokolov, S.; Biuw, M.; Costa, D.; Boehme, L.; Lovell, P.; Coleman, R.; Timmermann, R.; Meijers, A.; Meredith, M.; Park, Y.-H.; Bailleul, F.; Goebel, M.; Tremblay, Y.; Bost, C.-A.; McMahon, C.R.; Field, I.C.; Fedak, M.A.; Guinet, C. Southern Ocean frontal structure and sea-ice formation rates revealed by elephant seals, Proceedings of the National Academy of Sciences, Volume 105 (2008) no. 33, pp. 11634 -11639

[14] Chiou, J.-M.; Müller, H.-G. Modeling hazard rates as functional data for the analysis of cohort lifetables and mortality forecasting, Journal of the American Statistical Association, Volume 104 (2009) no. 486, pp. 572-585

[15] Crambes, C.; Mas, A. Asymptotics of prediction in functional linear regression with functional outputs, Bernoulli (2013) (A paraître) | Zbl

[16] de Boor, C. A Practical Guide to Splines, Springer, New York, 2001 | Zbl

[17] Faraway, J.J. Regression analysis for a functional response, Technometrics, Volume 39 (1997) no. 3, pp. 254-261 | Zbl

[18] Fedak, M.; Lovell, P.; McConnell, B.; Hunter, C. Overcoming the constraints of long range radio telemetry from animals : getting more useful data from smaller packages, Integrative and Comparative Biology, Volume 42 (2002) no. 1, pp. 3-10

[19] Fan, J.; Zhang, J.-T. Two-step estimation of functional linear models with applications to longitudinal data, Journal of the Royal Statistical Society : Series B (Statistical Methodology), Volume 62 (2002) no. 2, pp. 303-322

[20] Guinet, C.; Xing, X.; Walker, E.; Monestiez, P.; Marchand, S.; Picard, B.; Jaud, T.; Authier, M.; Cotté, C.; Dragon, A.-C.; Diamond, E.; Antoine, D.; Lovell, P.; Blain, S.; D’Ortenzio, F.; Claustre, H. Calibration procedures and first data set of Southern Ocean chlorophyll-a profiles collected by elephant seal equipped with a newly developed CTD-fluorescence tags, Earth System Science Data, Volume 5 (2013), pp. 15-29 | DOI

[21] He, G.; Müller, H.-G.; Wang, J.-L.; Yang, W. Functional linear regression via canonical analysis, Bernoulli, Volume 16 (2010) no. 3, pp. 705-729 | Zbl

[22] Hosseini-Nasab, M. Cross-validation approximation in functional linear regression, Journal of Statistical Computation and Simulation (2012), pp. 1-11 | DOI

[23] James, G.M. Generalized linear models with functional predictors, Journal of the Royal Statistical Society : Series B (Statistical Methodology), Volume 64 (2002) no. 3, pp. 411-432 | Zbl

[24] Jaud, T.; Dragon, A.-C.; Garcia, J.V.; Guinet, C. Relationship between Chlorophyll a Concentration, Light Attenuation and Diving Depth of the Southern Elephant Seal Mirounga leonina, PLoS one, Volume 7 (2012) no. 10 | DOI

[25] Lian, H. Minimax Prediction for Functional Linear Regression with Functional Responses in Reproducing Kernel Hilbert Spaces, arXiv preprint arXiv :1211.4080 (2012)

[26] McMahon, C. R.; Autret, E.; Houghton, J.D.R.; Lovell, P.; Myers, A.E.; Hays, G.C. Animal-borne sensors successfully capture the real-time thermal properties of ocean basins, Limnology and Oceanography : Methods, Volume 3 (2005), pp. 392-398

[27] Malfait, N.; Ramsay, J.O. The historical functional linear model, The Canadian Journal of Statistics, Volume 31 (2003), pp. 115-128 | Zbl

[28] Müller, H.-G.; Stadtmüller, U. Generalized functional linear models, The Annals of Statistics, Volume 33 (2005) no. 2, pp. 774-805 | Zbl

[29] Nerini, D.; Monestiez, P.; Manté, C. Cokriging for spatial functional data, Journal of Multivariate Analysis, Volume 101 (2010), pp. 409-418 | Zbl

[30] Ramsay, J.O. Monotone regression splines in action, Statistical Science (1988), pp. 425-441

[31] Ramsay, J.O.; Dalzell, C.J. Some tools for functional data analysis, Journal of the Royal Statistical Society. Series B (Methodological) (1991), pp. 539-572 | Zbl

[32] Ramsay, J.O.; Hooker, G.; Graves, S. Functional Data Analysis with R and MATLAB, Springer, 2009 | Zbl

[33] Ramsay, J.O.; Silverman, B.W. Functional Data Analysis, Springer, 2005 | Zbl

[34] Schumaker, L.L. Splines Functions : Basic Theory, Cambridge University Press, New York, 2007 | Zbl

[35] Wahba, G. Spline models for observational data, 59, Society for Industrial Mathematics, 1990 | Zbl

[36] Xing, X.; Claustre, H.; Blain, S.; D’Ortenzio, F.; Antoine, D.; Ras, J.; Guinet, C. Quenching correction for in vivo chlorophyll fluorescence measured by instrumented elephant seals in the Kerguelen region (Southern Ocean), Limnology and Oceanography : Method, Volume 10 (2012), pp. 483-495 | DOI

[37] Yao, F.; Müller, H.-G.; Wang, J.-L. Functional linear regression analysis for longitudinal data, The Annals of Statistics, Volume 33 (2005) no. 6, pp. 2873-2903 | Zbl