Responsable de l'équipe d'accueil

Adam-Blondon
Anne-Francoise
This email address is being protected from spambots. You need JavaScript enabled to view it.
+33 1 30 83 37 49

Personne encadrant le stage

Michotey
Célia
+33 1 30 83 38 30

Lieu du stage

URGI - INRAE centre de Versailles
RD10, Route de Saint-Cyr
78000 Versailles, France

Sujet du stage

Amélioration d’outils et de workflow d’intégration de données pour accroitre la qualité d’un système d’information international.
GnpIS est un système d’information (SI) développé par l’URGI qui permet de stocker et d’intégrer des jeux de données de génétique et de génomique des plantes ( https://urgi.versailles.inrae.fr/gnpis/ ). Il met à disposition des données de qualité suivant les principes FAIR (Findable, Accessible, Interoperable, Reusable), ce qui lui permet de participer aux efforts pour la science ouverte, pour laquelle INRAE est moteur.

L’URGI propose un stage de Master en développement de workflow de data management. Il vise à améliorer et automatiser les différents outils utilisés pour valider les jeux de données soumis à GnpIS afin de garantir la qualité des données. Il s’agit par exemple de vérifier que les traits observés dans le cadre d’une expérience de phénotypage sont bien rattachés à une ontologie de référence et que les valeurs mesurées sont bien cohérentes entre elles. Cette étape de vérification et de curation des données est essentielle pour la FAIRification des données et pour faciliter l’intégration de jeux de données hétérogènes, donc améliorer leur valorisation et enrichissement.

Pour répondre à ce besoin, le/la stagiaire améliorera les outils existants (utilisation de Talend, web services REST, Python, SQL) et en développera de nouveaux (R, ou autre potentiellement proposé par le/la stagiaire). Si possible, la personne recrutée explorera également des solutions innovantes reposant sur l’utilisation du dataverse d’INRAE ( data.inrae.fr ) ou de Framework comme CSV for Web ou Frictionless Data.


Mots clés résumant les méthodes et techniques à utiliser au cours du stage :
* Data management, qualité des données, FAIR
* Python, Talend, web services REST, SQL, JSON, R, Nextflow, GNU/Linux, Shell.

Montant des indemnités de stage : approximativement 500€.

Modalités de candidature : les candidatures (CV + lettre de motivation) doivent être adressées au plus tard jusqu’au 31/10/2021 par courriel à This email address is being protected from spambots. You need JavaScript enabled to view it. avec l’objet suivant : [stage 2022 - data-quality]