Responsable de l'équipe d'accueil

Adam-Blondon
Anne-Françoise
This email address is being protected from spambots. You need JavaScript enabled to view it.
01 30 83 37 49

Personne encadrant le stage

Flores
Raphaël
05 61 28 51 92

Lieu du stage

INRAE - CNRGV
24 Chemin de Borde Rouge - Auzeville
CS 52627
31326 Castanet Tolosan Cedex

Sujet du stage

Automatisation et généralisation d‘intégration de données issues de fouille de texte dans un SI
Mots clés résumant les méthodes et techniques à utiliser au cours du stage :
- Fouille de texte, graphe de connaissances, ontologies biologiques et environnementales
- Langages et outil de développement : Neo4j, Python, RDF, Docker/Singularity, GNU/Linux, Shell.

Un des enjeux de la biologie végétale est d’étudier, voire de prédire, le phénotype d’une plante et sa capacité à s’adapter à des stress à partir de données génétiques, génomiques et environnementales. Ce lien entre génotype et phénotype s’effectue via des approches de détection de QTL ou de GWAS, souvent complétées par une approche gène candidat. De nombreuses connaissances existent déjà chez des espèces modèles ainsi que dans la littérature scientifique.

GnpIS (https://urgi.versailles.inrae.fr/gnpis/) est une base de données INRAE qui permet de stocker des jeux de données de génétique, de phénomique et de génomique chez les plantes . En complément, des données de ce type se trouvent de façon non structurée dans la bibliographie.

L’URGI développe un graphe de connaissances permettant d’intégrer des données hétérogènes dans l’optique d’apporter un appui efficace et rapide en terme d’exploration de données à la communauté scientifique, en particulier en lien avec des approches de biologie translationnelle.

Une preuve de concept a été réalisée sur le blé pour développer et automatiser un pipeline de fouille de texte (AlvisNLP développé par l’équipe Bibliome de l’UMR MaIAGE) permettant de collecter ce type d’information dans des articles et de les annoter sémantiquement.

Objectifs :
- Un premier objectif du stage consiste à adapter et utiliser le pipeline de fouille de texte sur un corpus bibliographique étendu en s’appuyant notamment sur des identifiants de gènes d’intérêt, d’ontologies de référence (gene ontology, phenotype, ...) et bases de données de référence (PFAM, UniProt, classification Wicker).
- Un second objectif sera d’intégrer ces données annotées au sein d’un graphe de connaissances (basé sur Neo4J) afin de pouvoir en enrichir les connaissances et permettre de répondre à des questions scientifiques en mettant en œuvre une approche de biologie translationnelle.
- Le dernier objectif consistera à exposer les données intégrées sous la forme d’un graphe en représentation RDF permettant ainsi leur publication sous une forme rendant possible leur réutilisation par la communauté scientifique.

Modalités pour postuler :
Les candidatures (CV + lettre de motivation) doivent être adressées au plus tard jusqu’au 31/10/2021 par courriel à This email address is being protected from spambots. You need JavaScript enabled to view it. avec l’objet suivant : [2022-stage-graph-text-mining].

Détails : https://urgi.versailles.inrae.fr/About-us/News/6-months-M2-internship-position-at-INRAE-Toulouse