Responsable de l'équipe d'accueil

Burstin
Judith
This email address is being protected from spambots. You need JavaScript enabled to view it.
03 80 69 31 59

Personne encadrant le stage

Kreplak
Jonathan
03 80 69 34 70

Lieu du stage

INRA Dijon
17 rue Sully,
21000 Dijon

Sujet du stage

Intégration et interrogation de données -omiques via une base orientée graphe: Neo4j.
L’équipe Cible Protéagineux (ECP) appartenant à l’UMR Agroécologie(INRA Dijon) travaille depuis des années sur les légumineuses et particulièrement sur les questions de rendement et de résistance aux stress biotiques et abiotiques. Elle utilise pour cela des outils issus de la génétique mais aussi de la génomique et de la transcriptomique. Centré initialement sur le pois avec les publications de son transcriptome (Alves-Carvhalo et al, 2015) et de la première version du génome (Kreplak et al, 2019), le travail continue désormais sur d’autres espèces : la fève et la lentille.
L’un des principaux besoins en biologie actuellement est d’être capable de créer des bases de connaissances permettant de mettre en relation des données de plusieurs types (transcriptomique, génomique, génétique, phénotypage…), issues de plusieurs espèces et donc de les interroger de manière efficace et innovante.

Dans le cadre de ce stage de M2, nous proposons de construire une première base de connaissance sur les trois espèces travaillées dans l’équipe en utilisant une base de données NoSQL orientée graphe : Neo4j. Pour commencer, la base contiendra particulièrement des données génomiques, d’expression de gènes et de variations produites précédemment par l’équipe.

L’étudiant devra d’abord se familiariser avec les données disponibles et pourra s’appuyer sur le schéma d’une autre base en cours de conception. Il devra mettre en place des scripts d’intégration automatisés à l’aide de Nextflow et de python/R. Avec l’aide de suggestions de l’équipe, il interrogera la base créée selon quelques questions-type, et l’enrichira avec de nouveaux résultats d’analyses. Enfin, si le temps le permet, il réalisera pour ces questions-types, une interface utilisable par nos chercheurs.

Des connaissances des données génomiques en général, des bases de données, de la réalisation de workflows (Nextflow ou autre) et de python/R sont souhaitables.