Responsable de l'équipe d'accueil

Adam-Blondon
Anne-Françoise
This email address is being protected from spambots. You need JavaScript enabled to view it.
0130833749

Personne encadrant le stage

Confais / Francillonne
Johann / Nicolas
01 30 83 38 03

Lieu du stage

Unité de Recherche en Génomique-Info
URGI UR1164
bâtiment 18
INRAE
RD10 - Route de St Cyr
78026 Versailles Cedex
France

Sujet du stage

Intégration de données hétérogènes en lien avec l’adaptation à des conditions environnementales changeantes chez Arabidopsis thaliana dans une base de données orientée graphe.
Contexte :

Au sein de l’unité de recherche en Génomique Info (URGI) de l’INRAE de Versailles, un groupe de travail s’intéresse au rôle des éléments transposables (ET) dans la régulation de gènes ou réseaux de gènes. De nombreuses ressources génétiques, génomiques et -omiques sont disponibles chez Arabidopsis thaliana. Pour autant il n’est pas aisé de croiser ces données pour identifier les mécanismes régulateurs de gènes et réseaux de gènes d’intérêts. L’équipe a récemment mis en évidence le rôle fonctionnel d’ETs ancestraux sur la régulation potentielle de réseaux de gènes en lien avec la floraison (https://www.biorxiv.org/content/10.1101/547877v3). Aujourd’hui, sur les espèces modèle la science sort du dogme à une espèce un génome référence. En effet, il existe plusieurs génomes assemblés de novo et issus de différents environnements pour une espèce. Ces nouveaux jeux de données ouvrent de nouvelles perspectives dans le décryptage des mécanismes d’adaptation à différents environnements. Ce stage s’inscrit dans cette dynamique et plus particulièrement sur le rôle des éléments transposables dans l’adaptation de leur hôte à des conditions environnementales changeantes.
Plusieurs facteurs rentrent en jeu dans les mécanismes d’adaptation à des environnements changeants tels que des stress biotiques (maladies, ravageurs) et abiotiques (stress hydrique, stress thermique et autres). Croiser les connaissances fournies par les séquences des génomes d’Arabidopsis thaliana, avec celles fournies par des approches de génétique quantitative, de détection de polymorphismes (SNP, CNV), de données d’annotations (ETs, TFBS, facteur de transcription) et de transcriptomique, pourrait permettre de mettre en évidence les déterminants génétiques et moléculaires régulant des caractères d’intérêt. Et, s’il y a conservation de déterminisme entre espèces, les données exploitables pour cette espèce modèle seraient transférables à d’autres espèces d’intérêts agronomiques (relations orthologues).
Il y a actuellement un réel besoin de développement d’outils qui permettent (1) d’interroger et de croiser les données acquises en génétique et en -omiques chez Arabidopsis thaliana et les autres espèces végétales de manière intelligente et efficiente et (2) d’explorer les limites entre synténie structurale et fonctionnelle. Ces outils pourront servir à l’amélioration variétale qui doit répondre à de nouveaux enjeux comme le réchauffement climatique et la transition agro-écologique.
Objectif :

Le stage aura pour objectif d’intégrer des données hétérogènes produites chez Arabidopsis thaliana, dans une base de données de type « graphe » (Neo4j) pour ensuite pouvoir les interroger.
Travail demandé :

Dans un premier temps, le(a) candidat(e) se familiarisera d’une part avec les données sur Arabidopsis thaliana disponibles au sein de l’équipe et dans la littérature. Ces données générées au laboratoire et issues de bases publiques devront être traitées pour être insérées dans une base pilote sur la thématique de l’adaptation aux conditions environnementales fluctuantes. La finalité de ce pilote sera le transfert de données d’une espèce végétale à l’autre. Ce corpus de données sera constitué à la fois de données acquises (annotations d’ETs) et de données à produire par des méthodes bio-informatiques (proximité TE-gène…). Le(a) candidat(e) devra enfin pouvoir proposer une automatisation de l’insertion des données en base et des visualisations permettant une interrogation accessible et reproductible.
Compétences techniques recherchées :

Le(a) candidat(e) devra être en cours de Master 2 en bio-informatique et être familier(e) avec un environnement linux. De bonnes notions en biologie végétale, en génomique, en génétique, en transcriptomique seraient souhaitées. Le langage de programmation utilisé pour le traitement des données sera Python et une connaissance SQL serait appréciée, de même qu’une appétence envers les technologies Docker et NoSQL.