Offre N° : PRS-23-336

Méthodes computationnelles pour des modèles de semi-Markov cachés avec effet mixtes - applications à des modèles de ramification de plantes et racines

Mots clefs :
Modélisation de la structure des plantes
Modèles de semi-Markov cachés
GLMM
Inférence approchée


Type d'accueil : These
Lieu d'accueil : AMAP (Montpellier). Possibilités à INRAE Toulouse
Période d'accueil : 01/10/2023    Durée d'accueil : 3 ans
Profil recherché : Niveau master 2
Laboratoire d'accueil :
UMR CIRAD-CNRS (5120)-INRA (931)-IRD (123)- Université Montpellier, "botAnique et Modélisation de l'Archtecture des Plantes et des végétations"

Descriptif détaillé de l'offre :

Objet de l'offre :
Notice

Full-English version available at https://cv.hal.science/jean-baptiste-durand#phd (please click on "Voir plus")

Dans le cadre du développement des plantes, les modèles statistiques se divisent entre des modèles dit 'génotype x environnement', basés sur des modèles mixtes et qui ignorent l'aspect temporel du processus étudié, et des modèles séquentiels prenant en compte l'aspect dynamique et basés sur une modélisation biologique, mais qui n'incluent pas d'effets génotypiques ou environnementaux. Ce sujet de thèse est un premier pas vers l'inclusion d'effets génotypiques et environnementaux dans des modèles séquentiels.
Plus précisément, on s'intéresse aux modèles de semi-Markov cachés, développés depuis une vingtaine d'année (Guédon et al., 2001) pour modéliser la structure des plantes dans ses aspects dynamiques. Ces modèles permettent de prendre en compte différentes phases de développement de la plante ou d'une de ses composantes (branche, racine, etc.) par des états cachés. L'objectif de la thèse est d'inclure des effets fixes et aléatoires dans cette catégorie de modèles, les premiers permettant d'étudier les variables d'intérêt (génotype et environnement) et les seconds de prendre en compte des contraintes sur le design expérimental. Il s'agit, en plus de la spécification de ces modèles, de proposer des algorithmes d'inférence adaptés à leur complexité.

Intérêt scientifique
:
Ce travail de thèse ouvrira deux types de perspectives. La famille de modèles ainsi élaborée pourrait être incluse comme composant de base dans des modèles plus globaux, enjeu fondamental dans les méthodes agronomiques actuelles. De plus, les avancées méthodologiques dans le cadre des modèles de semi-Markov cachés permettront d'enrichir cette classe de modèles et de répondre à de nouvelles questions dans des domaines variés (médecine, sismologie, fiabilité, écologie, etc).

Intérêt pédagogique
:
L'essor des outils automatisés de phénotypage des plantes (qui effectuent des mesures dynamiques des caractéristiques de la plante) conduit à l'acquisition de données dépendantes temporellement et spatialement. Ces données peuvent être traduites en leviers précieux pour guider les cultures, à condition d'avoir les modèles permettant d'exploiter ces données. Les modèles de développement des plantes les plus couramment utilisés sont d'une part les modèles déterministes basés sur une modélisation biologique complexe, mais qui peinent à prendre en compte la variabilité architecturale observée, et d'autre part les modèles statistiques de régression qui permettent de tester des effets du génotype ou de l'environnement, mais à l'aide d'un processus biologique temporel très fruste, par exemple réduit à un unique coefficient. Entre ces deux types d'approches, des modèles statistiques prenant en compte la dynamique de développement de la plante ont été proposés par Guédon et al.(2001), dans le cadre de processus de Markov ou semi-Markov cachés. Sur la base d'une représentation fondée sur des connaissances biologiques (Barthélémy et Caraglio, 2007), ces modèles incluent une variable cachée représentant les phases de développement de la plante. Néanmoins, ils ne permettent pas de prendre en compte l'effet du génotype et du climat.

Avec ce sujet de thèse, nous proposons d'étendre les travaux initiés par Guédon et al. (2001) en introduisant des effets fixes et aléatoires sur les différentes lois qui définissent un modèle de semi-Markov caché, puis de proposer des algorithmes d'inférence adaptés à la complexité de ces modèles. Cette dernière réside dans les deux niveaux de variables latentes : les états cachés correspondants aux phases de développement (variables catégorielles), et les variables latentes correspondant aux effets aléatoires (variables continues).

Les méthodes retenues pour l'inférence du modèle seront mises en oeuvre sur un ou plusieurs jeux de données disponibles sur des espèces fruitières, issus d’études dans différents contextes agronomiques et de projets de l’équipe AFEF (unité AGAP, INRAE).

Conditions scientifiques matérielles et financières du projet de recherche

La thèse se déroulera au sein du laboratoire AMAP du Cirad, sur le site Agropolis à Montpellier. Des séjours seront à prévoir au sein de l'unité MIA de l'INRAE à Toulouse :

Par ailleurs, les encadrants font partie du consortium INCA (coordonné par N. Peyrard) rassemblant la plupart des statisticiens théoriques et appliqués travaillant sur les modèles de semi-Markov cachés en France. Les échanges rapprochés, via des groupes de travail réguliers, offrira au doctorant des opportunités d'échanges avec la communauté statistique.

Nous ne disposons pas de financement de thèse et le/la candidat.e devra se présenter au concours de l'école doctorale I2S à Montpellier ou MITT à Toulouse.

Pour candidater, merci de joindre vos relevés de notes détaillés de troisième année de licence, première année de Master, et premier semestre de deuxième année de Master (voire de deuxième année si disponible).

Ouverture Internationale

L'application aux espèces fruitières (pommiers) est développée dans le cadre d'une collaboration avec Martin Mészáros (Research and Breeding Institute of Pomology à Holovousy - VŠÚO - République Tchèque).

Un workshop international sur les modèles markoviens et semi-markoviens sera co-organisé par le consortium INCA en 2024, et constituera l'occasion d'échanges avec des chercheurs internationaux thématiquement proches, qui pourront déboucher sur des collaborations.
Objectifs de valorisation des travaux de recherche du doctorant : diffusion, publication et confidentialité, droit à la propriété intellectuelle,...
Les travaux de thèse donneront lieu à des publications dans des revues de statistiques computationnelles et dans des revues d'agronomie ou à la frontière agronomie/statistiques.

Les algorithmes développés seront traduits en outils pour la communauté statistique travaillant sur les modèles de semi-Markov, et adaptés pour la communauté biologique s'intéressant à la modélisation du développement des plantes.

Le doctorant aura l'opportunité de présenter ses travaux dans des colloques nationaux et internationaux.

Techniques, méthodes et matériel biologique
:
Plusieurs méthodes sont envisagées pour l'inférence. La première consiste en des méthodes de quadrature, dont la spécification et la validité reposent sur une étude fine des fonctions à intégrer, comme dans INLA (Rue et al., 2009). La deuxième est une approximation par méthodes de Monte-Carlo. La troisième est une approche de type Variational EM (Jordan et al., 1999, avec la variante VBEM dans le cas bayésien), consistant à approcher la log-vraisemblance à l’aide de fonctions paramétriques qui se factorisent par rapport aux variables.
Il s'agira d'étudier quelles méthodes permettent d’estimer au mieux les paramètres du modèle et quel est leur compromis entre précision et temps de calcul. La question de l'adaptation des critères usuels de sélection de modèles sera également abordée afin de déterminer les variables pertinentes à inclure.

Publications de l'équipe en rapport avec le sujet :
Barthélémy, D. and Caraglio, Y. Plant Architecture : A Dynamic, Multilevel and Comprehensive

Approach to Plant Form, Structure and Ontogeny. Annals of Botany 99(3), 375–407 (2007)

Guédon, Y., Barthélémy, D., Caraglio, Y. and Costes, E. Pattern Analysis in Branching and Axillary

Flowering Sequences. Journal of theoretical biology, 212(4), 481–520 (2001)

Jordan, M.I., Ghahramani, Z., Jaakkola, T.S., Saul, L.K. An Introduction to Variational Methods for Graphical Models. Machine Learning 37, 183–233 (1999)

Rue, H., Martino, S. and Chopin, N., Approximate Bayesian inference for latent Gaussian models by using integrated nested Laplace approximations. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 71: 319-392 (2009)

Yu, S.-Z. Hidden semi-Markov models. Artificial intelligence, 174(2), 215–243 (2010)
Connaissances requises
Compétences en statistiques (modélisation, estimation) et si possible, processus aléatoires.

Qualités recherchées
Goût pour les applications et la programmation.


Commentaires complémentaires
Full-English version available at https://cv.hal.science/jean-baptiste-durand#phd (please click on "Voir plus")