3. Incertitudes, valeurs extrêmes et climatologie
p. 138-140
Texte intégral
1Il apparaît clairement à la lecture de cet ouvrage que les sciences du climat sont grandes consommatrices et productrices de données. Il n’est alors pas étonnant qu’elles fassent appel aux concepts et outils de deux domaines scientifiques parents, les statistiques et les probabilités. Rappelons d’emblée que les premières s’intéressent à la description, en termes de paramètres pertinents, d’ensembles de données souvent issus de l’observation des phénomènes, alors que les secondes ont l’ambition de quantifier mathématiquement le caractère aléatoire d’un événement possible. Le cadre d’application n’est bien sûr pas celui des phénomènes directement prédictibles, mais celui où le phénomène semble guidé, d’une façon ou d’une autre, par une part au moins d’aléatoire. Prenons l’exemple simple du lancement d’un dé, que l’on supposera non biaisé : aucune face n’étant privilégiée, la probabilité de chacune des 6 valeurs possibles est alors de 1/6. S’il est impossible de prédire la séquence précise des résultats, la théorie probabiliste sait déterminer la valeur moyenne théorique d’un tirage (égale à 3,5), que toute expérience retrouverait d’autant mieux qu’elle serait répétée un grand nombre de fois (ce qu’on appelle un résultat asymptotique). Elle sait également retrouver la forme des déviations à cette valeur moyenne, qui fait intervenir la célèbre courbe « en cloche » de Gauss. Ici, estimations et mesures se rejoignent, et la rigueur de cette conjonction s’appuie sur des théorèmes classiques de mathématiques, la loi des grands nombres et le théorème de « limite centrale », qui s’applique sous l’hypothèse que la variance* soit finie. Mais à côté de cette quantification du « probable », nombreux sont les cas où l’on souhaiterait en dire autant des situations « improbables », en particulier dans les sciences de la Terre ou du climat où l’improbable est parfois synonyme de catastrophe.
Pourquoi et comment quantifier l’improbable ?
2Il est facile de trouver des raisons pour motiver le « pourquoi », les événements improbables (crues de 1911, tempêtes de 1999, etc.) ayant souvent des conséquences dramatiques. Par contre, tenter de répondre au « comment » semble voué à l’échec, particulièrement si l’objet d’étude doit prendre une forme déterministe. À titre d’exemple, il est vain d’essayer de prédire la date exacte de la prochaine crue centennale à Paris. Toutefois, il est possible de fournir une information utile si cette connaissance repose sur une modélisation probabiliste, c’est-à-dire une prise en compte de l’aléa, en d’autres termes la base du calcul des probabilités. L’exemple canonique en ce qui concerne le dimensionnement d’ouvrage de protection (digues, etc.) est la demande faite à l’hydrologue du niveau de retour décennale alors qu’il a à sa disposition 25 ans de données de pluie. Il s’agit d’estimer la valeur qui sera, en moyenne, dépassée une fois par siècle. Cette question s’inscrit bien dans un cadre statistique, plus précisément d’extrapolation probabiliste. Obtenir une connaissance incertaine au-delà de la plus grande valeur observée est l’objet de ce calcul de niveau de retour centennal. Deux éléments fondamentaux sont donc nécessaires : le besoin de théories probabilistes adaptées à ce type d’événements extrêmes et la recherche de méthodes pour calculer les incertitudes associées aux estimations obtenues dans ce cadre probabiliste.
Quel modèle probabiliste pour décrire la distribution des événements extrêmes ?
3Par définition, les événements extrêmes sont rares, mais ils se produisent et les records sont faits pour être battus. De par leur rareté et leur forte amplitude, la distribution des extrêmes est totalement différente de celles des valeurs moyennes et leur incertitude associée est naturellement plus élevée. La théorie des valeurs extrêmes* (EVT* en anglais) est la branche des statistiques qui décrit le comportement des plus grandes observations d’un jeu de données. Son objet est d’estimer des probabilités d’événements qui n’ont pas été encore observés. L’exemple donné en introduction du calcul de niveau de retour centennal avec un échantillon qui couvre seulement une période de quelques décennies rentre bien dans cette catégorie. Cependant, ce type d’extrapolation doit toujours demander une grande prudence et nécessite des fondations mathématiques solides, en particulier pour permettre d’identifier les hypothèses et comprendre les limites de ces extrapolations.
4La théorie EVT a une longue histoire et elle a été appliquée à toute une variété de problèmes financiers et hydrologiques. Son application aux études climatiques est assez récente. Ainsi, en 1999, un numéro spécial du journal Climatic Change était consacré aux valeurs extrêmes et au changement climatique mais l’EVT n’y était que rarement mentionnée ou appliquée. Ces dix dernières années, les climatologues ont commencé à tirer profit de cette théorie (e.g. le numéro spécial de la revue Extrêmes) et récemment, plusieurs analyses de premier plan ont été basées sur cette construction mathématique qui permet d’ouvrir de nouveaux horizons dans la modélisation des extrêmes climatiques. La pierre angulaire de l’EVT est la distribution extrême généralisée (GEV* en anglais) qui modélise la distribution du maximum, en d’autres termes la plus grande valeur d’un échantillon. En l’absence d’une connaissance précise de la distribution des valeurs de la variable* considérée, la justification mathématique de la GEV résulte d’un raisonnement s’appuyant sur les comportements asymptotiques attendus. À mesure que la dimension de l’échantillon augmente, la distribution du maximum se rapproche de formes typiques asymptotiques, regroupées dans la classe générale des « distributions GEV ».
5Au-delà de l’étude des maximums, il est aussi possible de s’intéresser aux excès au-dessus d’un seuil (dont le choix dépend de la nature du système et de la question posée). Cette stratégie, assez complémentaire de l’analyse des maximums, a l’avantage d’être plus efficace d’un point de vue statistique, le nombre de crêtes au-dessus d’un seuil étant plus grand que le nombre de maxima. Cette approche, appelée « Generalized Pareto Distribution » (GPD), est aussi fondée sur un raisonnement mathématique (figure).
Quelques développements méthodologiques et théoriques récents
6Revenons un instant sur l’exemple introductif concernant le calcul de niveau de retour centennal. En réalité, notre hydrologue possède, non pas une unique série de mesures de précipitations enregistrées à une seule station, mais plusieurs séries provenant d’un réseau de stations que, pour simplifier le message, nous supposerons appartenir à une région homogène d’un point de vue climatique. Il est donc naturel d’utiliser l’ensemble de ces stations pour réduire l’incertitude associée au calcul du niveau de retour centennal. Une première approche serait de calculer un niveau de retour pour chaque station, puis de les moyenner spatialement. Cette analyse naïve a le défaut de supposer, à tort, que les précipitations extrêmes sont indépendantes spatialement. Or, les relevés des stations de mesure très proches spatialement témoignent de cette hétérogénéité. Cette hypothèse a donc pour effet de sous-estimer les incertitudes. Cet excès de confiance peut avoir des conséquences importantes dans le cadre d’une analyse de risque. Il est donc nécessaire de se poser les questions suivantes : comment est-il possible de modéliser la dépendance entre événements extrêmes ? et comment prendre en compte cette dépendance dans le calcul des incertitudes de niveau de retour ?
7Ces dernières décennies, plusieurs travaux de recherche en probabilités et en statistiques ont permis de développer une théorie EVT plus sophistiquée, dite « multivariée », mais en contrepartie plus complexe dans sa forme la plus générale, permettant de modéliser et d’estimer des comportements spatiaux de valeurs extrêmes. La prise en compte de la dépendance spatiale, par exemple du lieu d’observation, est une particularité aujourd’hui incontournable de toute étude environnementale. Si cette dépendance est maintenant correctement intégrée dans les modélisations statistiques spatiales relatives au comportement moyen du processus d’intérêt, il n’en est pas de même en ce qui concerne les extrêmes. L’estimation de la dépendance spatiale des extrêmes est donc un enjeu majeur de la recherche actuelle dans ce domaine. La simple interpolation spatiale de réalisations extrêmes pose des problèmes encore non résolus aujourd’hui du fait de leur spécificité. La théorie a ouvert des pistes concernant la nature de ces valeurs interpolées : techniquement parlant cela conduit à considérer des champs dits « max-stables », dont l’explicitation nous sortirait du cadre de cet ouvrage. Contentons-nous de dire ici que cette théorie se distingue de celle qui analyse les comportements moyens. En particulier, les extrêmes d’un processus présentant de fortes dépendances spatiales pour son comportement moyen peuvent être fortement ou faiblement dépendants, voire sans structure spatiale particulière. L’inverse est aussi tout à fait envisageable. En d’autres termes, une connaissance approfondie de l’aléa moyen peut être inutile, lorsque l’objet d’étude se concentre sur l’aléa extrême. Ces phénomènes, bien connus des spécialistes du domaine, induisent donc de sérieuses difficultés dans la modélisation statistique des extrêmes.
8À ce stade, on doit considérer que d’importants efforts de recherche seront nécessaires pour tirer profit de cette théorie multivariée EVT. Les études climatiques récentes se limitent souvent à des analyses ponctuelles et ne tiennent pas encore compte des dépendances décrites ci-dessus. On peut aujourd’hui proposer et estimer plusieurs types de dépendances mais on ne sait pas comment les intégrer dans le calcul des incertitudes, en particulier lorsque le nombre de sources d’observations (par exemple de stations de mesures) devient grand.
Bibliographie
Des DOI sont automatiquement ajoutés aux références bibliographiques par Bilbo, l’outil d’annotation bibliographique d’OpenEdition. Ces références bibliographiques peuvent être téléchargées dans les formats APA, Chicago et MLA.
Format
- APA
- Chicago
- MLA
Références bibliographiques
• S. COLES - An Introduction to Statistical Modeling of Extrême Values, Springer, 2001.
• P. EMBRECHTS, C. KLÜPPELBERG and T. MIKOSCH - Modelling Extremal Events for Insurance and Finance, Springer, 2001.
• S. -K. MIN, X. ZHANG, F. W. ZWIERS and G. C. HEGERL - « Human Contribution to More-Intense Precipitation Extremes », Nature, 2010.
10.1038/ngeo1090 :• G. C. HEGERL, H. HANLON and C. BEIERKUHNLEIN - « Elusive extremes », Nature Geoscience, 2011.
• Statistics of Extremes in Weather and Climate, Numéro spécial de la revue Extremes, vol. 13, 2010.
Auteur
Statisticien, Chargé de Recherche au CNRS, LSCE, Gif-sur-Yvette.
naveau@lsce.ipsl.fr
Le texte seul est utilisable sous licence Licence OpenEdition Books. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.
L'archéologie à découvert
Hommes, objets, espaces et temporalités
Sophie A. de Beaune et Henri-Paul Francfort (dir.)
2012