Modélisation probabiliste et apprentissage statistique bayésien en épidémiologie des rayonnements ionisants
Dernière mise à jour en février 2021
Le LEPID est doté d'un axe de recherche transverse relatif au développement et au maintien d'une expertise de pointe en modélisation probabiliste d'une part et en apprentissage statistique bayésien d'autre part afin d'analyser des données épidémiologiques complexes et empreintes d'incertitudes multiples, telles que celles rencontrées en épidémiologie des rayonnements ionisants (RIs) : signal faible, censure forte sur les temps d'événements et les données d'expositions radiologiques, données manquantes, données longitudinales, erreurs de mesure sur les expositions, incertitudes dosimétriques, facteurs de risque multiples et corrélés… L'objectif est d'affiner, si possible, l'estimation et la prédiction de risques sanitaires radio-induits à faibles doses en tenant compte au mieux de cette complexité et des sources d'incertitude associées les plus pertinentes. Il est également d'améliorer les connaissances sur la forme des relations dose-réponse à faibles doses.
Axe 1 : Prise en compte des erreurs de mesure d'exposition et incertitudes dosimétriques dans les estimations de risques radio-induits
Les erreurs de mesure sur les expositions radiologiques et l'incertitude sur les estimations de doses font partie des sources d'incertitude les plus importantes en épidémiologie des RIs. Dans les études de cohortes professionnelles, par exemple, le type (ex : Berkson/classique, partagées/non partagées…) et la magnitude des erreurs de mesure peuvent changer au cours du temps en fonction des techniques utilisées pour mesurer ou estimer l'exposition des travailleurs (ex : reconstruction rétrospective par dires d'experts, capteurs d'ambiance, dosimètres individuels). Par ailleurs, dans le cas d'une contamination interne, la dose absorbée à l'organe est incertaine. Elle doit être estimée à partir de mesures d'exposition observées et à l'aide de modèles biocinétiques et dosimétriques impliquant un certain nombre de paramètres d'entrée incertains. Enfin, un résultat de mesure d'exposition ou d'activité retenu peut être manquant ou censuré à gauche, c'est-à-dire indiqué comme inférieur à une limite. En pratique, les erreurs de mesure sur les expositions et incertitudes dosimétriques sont souvent non ou mal prises en compte dans les estimations de risques radio-induits. Cela peut mener à des estimateurs de risque biaisés, à une déformation des relations dose-réponse et à une sur- ou sous-estimation de l'incertitude associée aux estimations de risque. L'objectif est donc de développer des méthodes statistiques adaptées pour prendre en compte explicitement les erreurs de mesure d'exposition ainsi que les sources d'incertitudes dosimétriques les plus importantes dans les estimations de risques radio-induits.
Deux études par simulations ont été menées afin de comparer l'impact des erreurs de mesure partagées et non partagées sur l'estimation d'un risque et la forme de la relation exposition-risque dans le contexte de l'utilisation de modèles de survie (Hoffmann et al., 2018a ; Hoffmann et al., 2018b). Par ailleurs, différents modèles hiérarchiques bayésiens (Collectif BioBAYES, 2015) ont été proposés afin d'estimer un effet corrigé des erreurs de mesure du risque de décès par cancer du poumon dans la cohorte française des mineurs d'uranium. Dans le cas de l'exposition au radon et ses descendants à vie courte (radon par la suite), nous avons considéré un modèle supposant l'existence d'erreurs de mesure hétéroscédastiques de type Berkson ou classique uniquement non-partagées (Hoffmann et al., 2017a) puis partagées inter et/ou intra travailleurs (thèse de S. Hoffmann, 2017). Dans le cas des expositions aux rayonnements gamma, nous avons étendu ces modèles hiérarchiques au contexte d'erreurs de mesure classiques combinées à un processus de censure à gauche lié à l'existence d'un seuil de détection sur les dosimètres et à des données d'exposition manquantes. Enfin, un modèle hiérarchique bayésien a été proposé afin de prendre en compte l'incertitude sur la dose interne au poumon dans le cadre de l'estimation du risque de décès par cancer du poumon résultant de contaminations internes chroniques à l'uranium dans un sous-ensemble de la cohorte TRACY. En proposant de tirer parti de l'information disponible chez tous les travailleurs appartenant à un même poste de travail générique, il apporte une solution prometteuse au problème de l'estimation de l'incorporation d'un travailleur associée à une période d'exposition dont tous les résultats de mesures radiotoxicologiques et/ou anthroporadiométriques sont inférieurs à une limite de détection ou d'interprétation (Thèse de S. Bouet, 2018). Des algorithmes Monte Carlo par Chaînes de Markov (MCMC) ont été implémentés dans le langage Python pour mener l'inférence bayésienne de tous les modèles hiérarchiques proposés.
Dans le cas d'un modèle de Cox ou en excès de risque instantané (EHR), la non prise en compte d'erreurs de mesure partagées entre plusieurs années de suivi d'un même individu a plus d'impact sur l'estimation d'un risque que la non prise en compte d'erreurs de mesure partagées entre plusieurs mineurs ou d'erreurs non partagées. De plus, une atténuation de la « vraie » relation exposition-risque est observée en cas de non prise en compte d'une structure d'erreurs partagées sur les expositions (Hoffmann et al., 2018b). Dans le cas de l'exposition au radon dans la cohorte française des mineurs d'uranium, l'estimation corrigée du risque de décès par cancer du poumon n'a changé que très marginalement (par rapport aux estimations non-corrigées), quand seule l'existence d'erreurs de mesure non-partagées a été supposée (Hoffmann et al. 2017a). En revanche, l'ajustement du modèle hiérarchique bayésien avec erreurs de mesure Berkson partagées sur plusieurs années de suivi consécutives d'un même travailleur a mis en évidence une augmentation de 14 % de l'EHR estimé de décès par cancer du poumon (EHR par 100 WLM corrigé 0,99 avec intervalle de crédibilité à 95% (95%IC) [0,48 ; 1,73]) par rapport à une approche sans prise en compte des erreurs de mesure (EHR par 100 WLM non corrigé 0,88 avec 95%IC [0,50 ; 1,36]) (thèse de S. Hoffmann 2017). Dans le cas de l'exposition aux rayonnements gamma, l'EHR corrigé de décès par cancer du poumon associé à une exposition cumulée de 100 milliGray[1] (mGy) a été estimé à 0,81 avec un IC95% [0,28 ; 1,75]. Cela correspond à une augmentation de 5,2 % de l'EHR estimé par rapport à une estimation sans prise en compte des incertitudes de mesure sur les expositions (EHR par 100 mGy non corrigé: 0,77 avec un IC95% [0,27 ; 1,66]) (Belloni et al., 2020a). Enfin, dans le cas de l'estimation du risque de décès par cancer du poumon résultant de contaminations internes chroniques à l'uranium dans un sous-ensemble de la cohorte TRACY, les intervalles de crédibilité à 95 % sur les doses internes estimés à partir du modèle hiérarchique bayésien proposé étaient compris entre la valeur de dose haute correspondant au scénario maximal dans le protocole CURE (Laurent et al., 2016) et la valeur de dose basse (i.e., dose nulle attribuée dans les situations de radioprotection opérationnelle de routine) dans le cas où tous les résultats de mesures étaient censurées à gauche pour un travailleur (Thèse de S. Bouet, 2018).
Axe 2 : Prise en compte de l'incertitude sur la forme du modèle dose-réponse
La forme fonctionnelle choisie pour décrire la relation entre une exposition à de faibles doses de RIs et une réponse sanitaire est incertaine. Plusieurs modèles décrivant cette relation sont souvent considérés pour un même jeu de données. Certains de ces modèles peuvent être difficiles à discriminer en termes de qualité d'ajustement mais conduire à des estimations différentes d'un même risque. L'incertitude sur le modèle dose-réponse est le plus souvent ignorée : un seul modèle est généralement sélectionné pour estimer les risques. Une telle approche peut mener à des estimations biaisées et à une sous-estimation de l'incertitude de ces estimations. L'objectif de ce travail est de mettre en évidence la possible valeur ajoutée d'une approche par combinaison de modèles par rapport à une approche par sélection de modèle pour l'estimation d'un risque sanitaire radio-induit.
L'estimation de l'excès de risque de leucémie radio-induite chez les survivants des bombardements d'Hiroshima Nagasaki a motivé ce travail. Pas moins de 13 modèles de régression de Poisson distincts ont été publiés dans la littérature pour estimer cet excès de risque à partir des données de mortalité de la cohorte des survivants des bombardements d'Hiroshima et Nagasaki. Nous proposons d'utiliser une approche statistique bayésienne reconnue pour la combinaison de modèles appelée Bayesian Model Averaging (BMA).[2] Une étude par simulations a été réalisée afin de comparer les performances du BMA et de la Multi-Model Inference (MMI)[3] pour la combinaison de modèles et celles d'une approche par sélection de modèle.
Dans le cas d'étude considéré, BMA et MMI fournissent des poids de modèle contrastés. Néanmoins, elles attribuent le poids le plus élevé au même modèle basé sur une relation dose-risque purement quadratique, modifiée par une fonction puissance en l'âge atteint. Les modèles de risque de leucémie radio-induite en excès de risque relatif ont des poids plus élevés que les modèles en excès de risque absolu. Bien que les intervalles de crédibilité à 95 % diffèrent, un excès de risque relatif de mortalité par leucémie infantile statistiquement significatif est observé pour chaque modèle et pour BMA et MMI, pour une dose reçue supérieure à 100 milliSievert[4] (mSv) à un âge à l'exposition de 2 ans et un âge atteint de 7 ans. Les conclusions sont un peu plus contrastées pour des doses inferieures à 100 mSv. Lorsque le « vrai » modèle ayant servi à générer des données ne fait pas partie des modèles candidats, le BMA fournit globalement de meilleures performances d'ajustement aux données que le MMI et qu'une approche par sélection de modèle (Ancelet et al., 2016).
Axe 3 : Prise en compte des co-expositions radiologiques
Les cancers, qui résultent de la combinaison de l'impact de nombreux facteurs de stress génétiques, environnementaux et comportementaux qui peuvent se produire simultanément et interagir, font partie de ces pathologies pour lesquelles le concept d'exposome est essentiel. Dans les études épidémiologiques, il est donc important de tenir compte de contextes d'expositions multifactorielles lorsqu'on estime ou prédit des risques de cancer au niveau individuel ou populationnel. Cependant, historiquement, les études épidémiologiques se sont surtout concentrées sur la caractérisation de l'effet d'un seul facteur de risque, présentant un "intérêt essentiel" pour l'étude. D'autres facteurs de risque sont généralement pris en compte, mais le plus souvent en raison de leur rôle redouté de facteurs de confusion potentiels. Ils sont donc pris en compte à travers des modèles de régression standard, afin d'estimer l'effet du "principal facteur de stress ", mais indépendamment de l'impact potentiel des autres facteurs de risque. Cela est notamment le cas en épidémiologie des RIs pour laquelle à ce jour, les risques de cancers potentiellement induits par des expositions environnementales multiples et de nature différente aux RIs sont peu étudiés et donc a fortiori peu connus. Ainsi, l'élaboration de normes de radioprotection reste principalement basée sur un cadre d'exposition mono-factorielle. L'estimation des risques de cancers potentiellement associés à des expositions simultanées (e.g., co-expositions) à de multiples facteurs de stress environnementaux pose de nombreuses difficultés techniques. En particulier, les données d'exposition sont souvent corrélées car associées à un même scenario d'exposition. Dans le cas d'une multicolinéarité trop prononcée, l'utilisation d'un modèle de régression standard incluant simultanément plusieurs facteurs de risque corrélés n'est pas efficace. Elle conduit généralement à une instabilité et à une imprécision des estimations de l'association entre la pathologie d'intérêt et chaque source d'exposition radiologique. Dans ce contexte, l'objectif est de proposer une approche statistique adaptée pour estimer l'effet sanitaire d'une combinaison d'expositions simultanées à plusieurs sources radiologiques.
Les travaux menés jusqu'alors sur le thème des co-expositions radiologiques ont porté sur la cohorte post-55 des mineurs d'uranium français. L'objectif est de proposer une méthode adaptée à l'estimation et à la prédiction individualisée du risque de décès par cancer du poumon chez les mineurs d'uranium français qui, dans le cadre de leur activité professionnelle, ont été co-exposés au radon, aux poussières d'uranium et aux rayonnements gamma. La classe des modèles de mélange par régression bayésienne sur profils d'exposition a été étendue au contexte des modèles de survie en EHR classiquement utilisés en épidémiologie des RIs. L'inférence de ce modèle a permis : 1) d'identifier et de caractériser des groupes de mineurs ayant un profil d'exposition similaire aux 3 sources radiologiques et un risque similaire de décès par cancer du poumon ; 2) d'estimer le risque d'intérêt associé à chaque groupe identifié, ainsi que l'incertitude d'estimation associée. Les variables d'exposition incluses dans le premier modèle développé sont : les expositions cumulées totales aux trois sources radiologiques, le type de poste, la mine, l'âge à la première exposition et la durée d'exposition. Un algorithme MCMC a été implémenté avec le langage Python afin d'inférer le modèle proposé à partir des données de la cohorte post-55 des mineurs d'uranium français.
Huit groupes de mineurs dont deux groupes à risques significativement plus élevés de décès par cancer du poumon ont été identifiés à partir du premier modèle proposé. Le premier groupe (EHR = 1,4, 95%CI [0,60 ; 2,60]) correspond aux mineurs les plus fortement exposés aux trois sources radiologiques sur l'ensemble de leur suivi, sur une durée d'exposition supérieure à 19 ans et principalement avant la mécanisation. Le deuxième groupe (EHR = 1,2, 95%CI [0,17 ; 2,0]) correspond aux mineurs les plus jeunes au moment de leur première exposition et fortement exposés aux 3 sources radiologiques, principalement après la mécanisation (Belloni et al., 2020b).
Les travaux de méthodologie statistique conduits à l'IRSN dans le cadre des études épidémiologiques répondent à des questions scientifiques majeures portant sur l'estimation des risques radio-induits à faibles doses. Ils présentent un intérêt en santé publique et en radioprotection en permettant d'améliorer la connaissance des effets sanitaires radio induits à faibles doses et en constituant une source d'information complémentaire intéressante pour la CIPR. Les travaux menés contribuent notamment à promouvoir l'utilisation de l'approche hiérarchique bayésienne qui est encore très rarement utilisée en épidémiologie des RIs.
Dans les années à venir, les travaux de modélisation et d'apprentissage statistique - jusqu'alors principalement motivés par des études chez les travailleurs du cycle du combustible nucléaire français - vont se poursuivre et s'étendre non seulement au contexte des études épidémiologiques portant sur les expositions médicales et environnementales aux RIs mais également au contexte international, notamment dans le cadre du projet européen RadoNorm.
FInancement : IRSN, Orano
[1] le milliGray (mGy) est l'unité de dose absorbée par un organe donné. Pour le risque de cancer du poumon, l'organe pertinent est le poumon.
[2] Hoeting JA, et al. Bayesian model averaging: A tutorial. Statistical Science 1999; 14(4):382-417.
[3] Walsh L, Kaiser JC. Multi-model inference of adult and childhood leukaemia excess relative risks based on the Japanese Abomb survivors mortality data (1950-2000). Radiat Environ Biophys 2011; 50(1):21-35.
[4] le milliSievert (mSv) est l'unité de dose utilisée en radioprotection. Pour comparaison, la dose moyenne reçue par la population française en 2016 du fait de l'ensemble des sources d'exposition est estimée à 4,5 mSv.
- Ancelet S, Keller M., Kaiser J.C. How to deal with dose-response model uncertainty when assessing radiation-related leukemia risks? A comparative study between Multi-Model Inference and Bayesian Model Averaging. Radiation Protection Week, 19-23 Sept 2016, Oxford.
- Belloni M, Guihenneuc C, Rage E, Ancelet S. A Bayesian hierarchical approach to account for left-censored and missing exposure data prone to classical measurement error when analyzing lung cancer mortality due to γ-rays in the French cohort of uranium miners. Radiat Environ Biophys 2020a; 59:423-437. doi: 10.1007/s00411-020-00859-6
- Belloni M, Laurent O, Guihenneuc C, Ancelet S. Bayesian Profile Regression to Deal With Multiple Highly Correlated Exposures and a Censored Survival Outcome. First Application in Ionizing Radiation Epidemiology. Frontiers Public Health 2020b; 8:557006. doi: 10.3389/fpubh.2020.557006
- Bouet S. Analyse des risques de pathologies cancéreuses et non cancéreuses au sein de cohorts de travailleurs du cycle de l'uranium. Thèse soutenue le 21 septembre 2018. Université Paris Saclay.
- Collectif BIOBAYES : Albert I, Ancelet S, David O, Denis J-B, Makowski D, Parent E, Rau A, Soubeyrand S. Initiation à la statistique bayésienne : Bases théoriques et applications en alimentation, environnement, épidémiologie et génétique. Ellipses. 2015. ISBN : 9782340005013
- Hoffmann S. Approche hiérarchique bayésienne pour la prise en compte d'erreurs de mesure d'exposition chronique et à faibles doses aux rayonnements ionisants dans l'estimation du risque de cancers radio-induits. Application à une cohorte de mineurs d'uranium. Thèse soutenue le 12 décembre 2017. Université Paris-Saclay. PSE-Santé/SESANE/2017-06
- Hoffmann S, Rage E, Laurier D, Laroche P, Guihenneuc C, Ancelet S. Accounting for Berkson and classical measurement error in radon exposure assessment using a Bayesian structural approach in the analysis of lung cancer mortality in the French cohort of uranium miners. Radiat Res 2017a; 187(2):196-209. Doi: 10.1667/RR14467.1.
- Hoffmann S, Guihenneuc C, Ancelet S. A cautionary comment on the generation of Berkson error in epidemiological studies. Rad Environ Biophys 2018a; 57(2):189-193.
- Hoffmann S, Laurier D, Rage E, Guihenneuc C, Ancelet S. Shared and unshared measurement error in occupational cohort studies and their effects on statistical inference in proportional hazards models. Plos One 2018b; 13(2):e0190792. Doi: 10.1371/journal.pone.0190792
- Laurent O, Gomolka M, Haylock R, Blanchardon E, Giussani A, Atkinson W, Baatout S, Bingham D, Cardis E, Hall J, Tomasek L, Ancelet S, Badie C, Bethel G, Bertho J-M, Bouet S, Bull R, Challeton De Vathaire C, Cockerill R, Davesne E, Ebrahimian T, Engels H, Gillies M, Grellier J, Grison S, Gueguen Y, Hornhardt S, Ibanez C, Kabacik S, Kotik L, Kreuzer M, LeBacq AL, Marsh J, Nosske D, O'Hagan J, Pernot E, Puncher M, Rage E, Riddell T, Roy L, Samson E, Souidi M, Turner M, Zhivin S, Laurier D. Concerted Uranium Research in Europe (CURE): toward a collaborative project integrating dosimetry, epidemiology and radiobiology to study the effects of occupational uranium exposure. J Radiol Prot 2016; 36(2):319-45.