silico.biotoul.fr
 

M2BBS GDNS-APG - Projets

From silico.biotoul.fr

Revision as of 14:28, 15 October 2021 by Barriot (Talk | contribs)
Jump to: navigation, search

Contents

Calendrier

La date de remise du rapport est fixée au 14 novembre 2021. Envoi par mail ou lien vers une archive à télécharger comprenant au minimum :

  • le rapport au format PDF,
  • le script python de recherche d'enrichissement et la base de données neo4j

Travail à réaliser

Constitution de la base de données

Base de données Neo4J avec les informations sur :

  • Gene : les gènes et leur position sur le(s) chromosome(s)
  • Alias : les alias/synonymes des noms de gènes
  • Keyword (UniProt Proteome)
  • InterPro Domains (UniProt Proteome)
  • PubMed (GenBank/RefSeq)
  • TU (EcoCyc)
  • Pathway (EcoCyc)
  • GOTerm (Gene Ontology + UniProt Proteome)
  • scores de coexpression, lien phylogénomique, interaction protéine-protéine (StringDB)


Illustatrion de quelques uns des types de sommets et relations intégrés à la base de Neo4J
Fig. 1: Schéma illustrant les sommets et liens de la base de données

Ajout de fonctionnalités au script de recherche d'enrichissement blastsets.py

Notation : On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (genome). Ils ont respectivement des cardinalités q, t, g.

Il s'agit de proposer d'autres mesures de similarités.

Coverage

La première est naïve (pas statistique) que l'on nommera coverage et consiste à considérer quelles fractions des 2 ensembles se correspondent. Pour la cohérence avec les autres mesures la valeur sera de 1 quand aucun élément n'est commun aux 2 ensembles, et 0 pour 2 ensembles identiques. Il s'agit donc de multiplier c/q par c/t avec c le nombre d'éléments communs aux ensembles Q et T respectivement de cardinalités q et t, et de soustraire cette valeur à 1.

Remarque : Il est possible de s'autoriser à transformer la mesure non statistique (coverage) afin qu'elle indique la dissemblance entre 2 ensembles (0 : identique, >0 : dissemblable). Ainsi les résultats seront triés dans le même ordre pour coverage et pour les p-valeurs (de la binomiale ou du χ2 par exemple).


χ2 d'indépendance

La deuxième mesure à ajouter est un χ2 d'indépendance en considérant les ensembles Q et T comme 2 facteurs (variables qualitatives). Le test est donc à effectuer sur la table de contingence :

T G \ T Σ
Q c q - c q
G \ Q t - c g - q - t + c g - q
Σ t g - t g

Information mutuelle

La dernière mesure à intégrer...

Comparaison des mesures ajoutées

Proposez une approche et comparez les différentes mesures intégrées au script. Le but est de déterminer laquelle, il est préférable d'utiliser et dans quel(s) cas.

Il vous faudra donc proposer et décrire une méthode permettant d'effectuer cette comparaison, soit de manière analytique (basée sur les hypothèses et calculs associés à chaque mesure), soit de manière empirique (basée sur des ensembles requêtes synthétiques permettant d'évaluer quelle mesure fait remonter les résultats souhaités), puis, de mettre en oeuvre cette méthode pour obtenir des résultats. Les résultats seront ensuite à interpréter et à discuter afin de conclure sur les aspects positifs et négatifs des différentes mesures, et éventuellement de proposer des perspectives.

Rapport à rendre

Il doit inclure

  • une brève introduction générale décrivant le contexte, les objectifs et le plan de ce qui suit. Une partie pédagogique sur l'organisme choisi serait la bienvenue (habitat, mode de vie, caractéristiques particulières, intérêt pour vous et/ou pour la communauté scientifique, ...).
  • intégration et préparation des données
    • données utilisées (sans oublier les versions)
    • méthodes d'intégration envisagées, choix et détails dans la réalisation (le document détaillé permettant de recréer la base et les fichiers pour les analyses d'enrichissement pourra être fourni à part sous forme de compte rendu RMarkdown s'il est trop similaire à celui réalisé en TP)
    • statistiques descriptives sur l'avancement de l'annotation de l'organisme choisi (avec des illustrations pertinentes)
  • ajout de fonctionnalités :
    • des explications sur les modifications apportées au script original,
    • comment utiliser le script modifié,
    • un exemple d'utilisation des fonctionnalités ajoutées.
  • comparaison des mesures intégrées :
    • approches envisagées et méthode pour en sélectionner une
    • mise en oeuvre
    • synthèse des résultats obtenus
    • bilan : quelle mesure utiliser de préférence, pourquoi
    • perspectives d'amélioration
  • bilan personnel sur cette partie du projet et sur cette UE : motivations ? critiques ? suggestions ? apports ? ... ?

Contraintes :

  • Le rapport doit être au format PDF. La partie réalisation de "intégration et préparation des données" peut être sommaire et renvoyer vers le compte rendu associé.
  • Le rapport peut être en anglais ou en français mais pas les 2.
  • Le script modifié et les éventuels jeux de tests utilisés et résultats obtenus doivent être fournis ou disponibles sous forme d'archive ou projet gitlab.