Diploma defense - Thesis

Méthodes statistiques pour la modélisation de la distribution spatiale des espèces végétales à partir de grandes masses d’observations incertaines issues de programmes de sciences citoyennes

08/10/2019 de 13h30 à 17h00Amphithéâtre Charles Flahault, Institut de Botanique, Montpellier

L’expertise botanique humaine devient trop rare pour fournir les données de terrain nécessaires à la surveillance de la biodiversité végétale. L’utilisation d’observations botaniques géolocalisées des grands projets de sciences citoyennes, comme Pl@ntNet, ouvre des portes intéressantes pour le suivi temporel de la distribution des espèces de plantes. Pl@ntNet fourni des observations de flore identifiées automatiquement et peuvent être ainsi utilisées pour les modèles de distribution des espèces (SDM), pour la surveillance des plantes envahissantes ou rares, ainsi des effets des changements globaux sur les espèces. Pour cela, nous devons (i) prendre en compte de l’incertitude d’identification, (ii) correction les biais d’échantillonnage spatiaux, et (iii) prédire précisément les espèces à un grain spatial fin.
Nous nous demandons d’abord si l'on peut estimer des distributions réalistes d’espèces végétales envahissantes sur des occurrences automatiquement identifiées de Pl@ntNet, et quel est l’effet du filtrage avec un seuil de score de confiance. Nous trouvons que le filtrage améliore les prédictions lorsque le niveau de confiance augmente jusqu’à ce que la taille de l’échantillon soit limitante. Les distributions prédites sont cohérentes avec les données d’expertes, mais indiquent aussi des zones urbaines d’abondance dues à la culture ornementale et des nouvelles zones de présence. Ensuite, nous avons étudié la correction du biais d’échantillonnage spatial dans les SDM basés sur des présences seules. Nous avons analysé mathématiquement et comparé le biais de deux méthodes de sélection des points de fonds, qui sont utilisés pour les SDM en présence-seule: la première (standard) utilise des points uniformément répartis dans l'espace, l'autre des occurrences de plusieurs espèces soumises au même biais d'échantillonnage. Nous montrons que le biais de la seconde est dû à la variation de l’abondance cumulée des espèces dans l’espace environnemental, qu’il est difficile de contrôler. Nous pouvons alternativement modéliser conjointement l’effort global d’observation avec les abondances de plusieurs espèces. Nous proposons de modéliser l’effort d’observation comme une fonction spatiale étagée définie sur un maillage de cellules géographiques. L’ajout d’espèces massivement observées au modèle réduit la variance d’estimation de l’effort d’observation et des modèles des autres espèces. Enfin, nous proposons un nouveau type de SDM basé sur des réseaux neuronaux convolutifs utilisant des images environnementales comme variables d’entrée. Ces modèles peuvent capturer des motifs spatiaux complexes de plusieurs variables environnementales. Nous proposons de partager l’architecture du réseau neuronal entre plusieurs espèces afin d’extraire des prédicteurs communs de haut niveau et de régulariser le modèle. Nos résultats montrent que ce modèle surpasse les SDM existants, et que la performance est améliorée en prédisant simultanément de nombreuses espèces, et sont confirmés par des campagnes d’évaluation coopérative de SDM menées sur des jeux de données indépendants. Cela supporte l’hypothèse selon laquelle il existe des modèles environnementaux communs décrivant la répartition de nombreuses espèces.
Nos résultats supportent l’utilisation des occurrences Pl@ntnet pour la surveillance des invasions végétales. La modélisation conjointe de multiples espèces et de l’effort d’observation est une stratégie prometteuse qui transforme le problème des biais en un problème de variance d’estimation plus facile à contrôler. Cependant, l’effet de certains facteurs, comme le niveau d’anthropisation, sur l’abondance des espèces est difficile à séparer de celui sur l’effort d’observation avec les données d’occurrence. Ceci peut être résolu par une collecte complémentaire protocollée de données. Les méthodes d’apprentissage profond mises au point montrent de bonnes performances et pourraient être utilisées pour déployer des services de prédiction spatiale des espèces.

Composition de jury:
Janine Illian, Université de Glasgow
Antoine Guisan, Université de Lausanne
Joseph Salmon, Université de Montpellier
Joël Chadoeuf, INRA BioSP
Alexis Joly, LIRMM, Montpellier
Pascal Monestiez, INRA BioSP
François Munoz, Université de Grenoble
Pierre Bonnet, CIRAD, UMR AMAP