Responsable de l'équipe d'accueil

Poch
Olivier
This email address is being protected from spambots. You need JavaScript enabled to view it.
0368853295

Personne encadrant le stage

Mayer
Claudine
0607235116

Lieu du stage

CSTB
11 rue Humann
Strasbourg

Sujet du stage

Reconnaissance de plis protéiques par apprentissage profond
La connaissance du pli des domaines protéiques est cruciale pour comprendre la fonction des protéines et leur détermination repose principalement sur des méthodes expérimentales (cristallographie, RMN, cryomicroscopie électronique). À ce jour, plus de 140 000 structures protéiques sont disponibles dans la PDB (Protein Data Bank), qui se répartissent en environ 1 300 plis différents. On estime que quelques milliers de plis différents peuvent exister dans le monde vivant pour environ 110 millions de séquences, faisant de la problématique de la prédiction des plis une problématique de classification. Les intelligences artificielles (IA) sont bien adaptées à ce problème de classification, notamment en utilisant l'apprentissage profond. Afin d’entrainer et de tester ces IA, différents benchmark ont été conçus à partir de séquences dont le pli est déjà connu et issues de la base de données de classification structurale SCOPe. Après avoir comparé plusieurs méthodes d'apprentissage automatique pour la prédiction des plis, nous avons montré que la méthode la plus efficace est basée sur le traitement de 54 descripteurs appliqués au jeu de données EDD dans un ensemble de réseaux neuronaux. Le classificateur créé présente une précision de 87 %, légèrement inférieure à celle obtenue dans la littérature, mais avec moins de descripteurs (50 contre 400) et moins de temps de calcul. De plus, lors d'une analyse structurale des données utilisées par ces différentes IA décrites dans la littérature, nous avons mis en évidence divers problèmes inhérents aux données qui pourraient conduire à un biais dans l'efficacité prédictive de ces algorithmes d'apprentissage automatique. L’objectif du stage est de poursuivre ces travaux, d’une part en approfondissant l’analyse des jeux de données disponibles afin d’en constituer de nouveaux, et d’autre part d’améliorer le classifieur déjà créé voire de mettre en place de nouvelles approches d’apprentissage automatique.