silico.biotoul.fr
 

M2BBS - IDH

From silico.biotoul.fr

Revision as of 05:33, 14 September 2016 by Barriot (Talk | contribs)
Jump to: navigation, search

Contents

Enrichment analysis

Dans cette partie, il s'agit d'analyser un groupe de gènes en le confrontant à des groupes de gènes obtenus selon différentes fonctions de regroupement.

La fonction de regroupement proposée est l'appartenance à une même voie métabolique dans la banque de données BioCyc. Ainsi, pour chaque pathway, un groupe de gène est formé.

Le script python search_enriched_sets.py permet de charger ces ensembles de gènes pré-formés EcolA.biocyc.sets et de chercher les plus similaires à un groupe de gènes d'intérêts. Essayez-le avec ALAS ARGS ASNS ASPS CYSS GLTX GLYQ GLYS HISS ILES par exemple pour vous faire une idée de son fonctionnement.

Comparez les résultats avec ceux obtenus en recherchant parmi les ensembles formés des gènes annotés avec le même terme de la Gene Ontology (EcolA.go.sets). Que constatez-vous ?

Travail à réaliser :

  • Analyser le code source du script search_enriched_sets.py
  • Pour chaque pathway biocyc, proposer le term GO le plus représentatif
  • Visualisation des résultats avec REVIGO


Prise en main de la librairie R/Bioconductor STRINGdb

Travail à réaliser :

  • Installer la librairie (si nécessaire)
  • Retrouver l'espèce Escherichia coli K12 MG1655, quel est son identifiant taxonomique/STRINGdb ?
  • Quelle est la différence entre STRINGdb core et STRINGdb periphery ?
  • Télécharger tout le graphe pour E. coli K12 pour un seuil de 400. A quoi correspond ce seuil ? combien d'interactions obtenez-vous ?
  • Afficher le sous graphe pour les groupe de gènes ALAS ARGS ASNS ASPS CYSS GLTX GLYQ GLYS HISS ILES. A quoi correspond la p-valeur affichée ?
  • Télécharger les annotations associées à chaque sommet.

Prioritization

Installation des bibliothèques requises :

yum -y install hdf5.x86_64 hdf5-devel.x86_64 h5py python-matplotlib.x86_64
pip install scikit-learn

Prise en main des scripts

  • librairie Prioritization.py: classes pour la priorisation de gènes par fusion de données génomiques
    • ScoreMatrix: matrice de dissimilarité/similarité/distance entre paires de gènes
    • Identifiers et IdentifierMap: chargement et manipulation d'identifiant de gènes
    • PrioritizedItem: représentation d'un candidat évalué (score, rank, ...)
    • Prioritizer: priorisation et fusion à partir de différentes matrices
  • script mat.info.py: affiche les informations contenues dans un fichier HDF5 représentant une matrice
  • script prioritize.py: Chargement d'une matrice et priorisation des candidats par rapport aux gènes d'entrainement
  • script fuse.py: Fusion de priorisations obtenues avec le script précédent

Représentation d'une matrice de distance avec le format HDF5.

Jeu de données :

  • Gènes impliqués dans la synthèse du peptidoglycane :
    • core : MURA MURB MURC MURD MURE MURF MRAY MURG
    • biosynthèse : MURA MURB MURC MURD MURE MURF MRAY MURG GLMU MRSA GLMS BACA YAES DDLA DDLB DADX MURI DAPF DAPE ARGD DAPD DAPB DAPA ASD LYSC
  • Systèmes ABC expertisés : EcolA.ncleandb12.training.abc et candidats EcolA.ncleandb12.candidates.abc
  • Matrices :

Information sur un gène à partir de son identifiant dans ABCdb : https://www-abcdb.biotoul.fr/#/entry/findbestmatch/ID/EcolA.RBSA

Données et scripts