M2BBS - IDH
From silico.biotoul.fr
Contents |
Enrichment analysis
Dans cette partie, il s'agit d'analyser un groupe de gènes en le confrontant à des groupes de gènes obtenus selon différentes fonctions de regroupement.
La fonction de regroupement proposée est l'appartenance à une même voie métabolique dans la banque de données BioCyc. Ainsi, pour chaque pathway, un groupe de gène est formé.
Le script python search_enriched_sets.py permet de charger ces ensembles de gènes pré-formés EcolA.biocyc.sets et de chercher les plus similaires à un groupe de gènes d'intérêts. Essayez-le avec ALAS ARGS ASNS ASPS CYSS GLTX GLYQ GLYS HISS ILES par exemple pour vous faire une idée de son fonctionnement.
Remarque : le script python utilise le module scipy.
root> pip install scipy
Comparez les résultats avec ceux obtenus en recherchant parmi les ensembles formés des gènes annotés avec le même terme de la Gene Ontology (EcolA.go.sets). Que constatez-vous ?
Travail à réaliser :
- Analyser le code source du script search_enriched_sets.py
- Pour chaque pathway biocyc, proposer le term GO le plus représentatif
- Visualisation des résultats avec REVIGO
Prise en main de la librairie R/Bioconductor STRINGdb
Travail à réaliser :
- Installer la librairie (si nécessaire)
- Retrouver l'espèce Escherichia coli K12 MG1655, quel est son identifiant taxonomique/STRINGdb ?
- Quelle est la différence entre STRINGdb core et STRINGdb periphery ?
- Télécharger tout le graphe pour E. coli K12 pour un seuil de 400. A quoi correspond ce seuil ? combien d'interactions obtenez-vous ?
- Afficher le sous graphe pour les groupe de gènes ALAS ARGS ASNS ASPS CYSS GLTX GLYQ GLYS HISS ILES. A quoi correspond la p-valeur affichée ?
- Télécharger les annotations associées à chaque sommet.
Prioritization
Installation des bibliothèques requises :
dnf -y install hdf5.x86_64 hdf5-devel.x86_64 h5py python-matplotlib.x86_64 pip install scikit-learn
Prise en main des scripts
- librairie Prioritization.py: classes pour la priorisation de gènes par fusion de données génomiques
- ScoreMatrix: matrice de dissimilarité/similarité/distance entre paires de gènes
- Identifiers et IdentifierMap: chargement et manipulation d'identifiant de gènes
- PrioritizedItem: représentation d'un candidat évalué (score, rank, ...)
- Prioritizer: priorisation et fusion à partir de différentes matrices
- script mat.info.py: affiche les informations contenues dans un fichier HDF5 représentant une matrice
- script prioritize.py: Chargement d'une matrice et priorisation des candidats par rapport aux gènes d'entrainement
- script fuse.py: Fusion de priorisations obtenues avec le script précédent
Représentation d'une matrice de distance avec le format HDF5.
Jeu de données :
- Gènes impliqués dans la synthèse du peptidoglycane :
- core : MURA MURB MURC MURD MURE MURF MRAY MURG
- biosynthèse : MURA MURB MURC MURD MURE MURF MRAY MURG GLMU MRSA GLMS BACA YAES DDLA DDLB DADX MURI DAPF DAPE ARGD DAPD DAPB DAPA ASD LYSC
- Systèmes ABC expertisés : EcolA.ncleandb12.training.abc et candidats EcolA.ncleandb12.candidates.abc
- Matrices :
- EcolA.geo.h5: gene-gene dissimilarity matrix based on GEO expression profiles
- EcolA.go.h5: gene-gene dissimilarity matrix based on Gene Ontology annotations
- EcolA.string.combined_score.h5: gene-gene dissimilarity matrix based on STRING combined score
- EcolA.pp.0.7.jaccard.h5: gene-gene dissimilarity matrix based on phylogenetic profiles (selected strains)
- EcolA.pp.all.jaccard.h5: gene-gene dissimilarity matrix based on phylogenetic profiles (all available strains)
- EcolA.gn.0.7.h5: gene-gene dissimilarity matrix based on genomic context (selected strains)
Information sur un gène à partir de son identifiant dans ABCdb : https://www-abcdb.biotoul.fr/#/entry/findbestmatch/ID/EcolA.RBSA
Données et scripts
- biomart
- enrichment analysis
- prioritization
- Media:Prioritization.py
- Media:mat.info.py
- Media:mat.init.py: initialize an empty matrix HDF5 file with the genes provided
- Media:prioritize.py
- Media:fuse.py
- EcolA.geo.h5: gene-gene dissimilarity matrix based on GEO expression profiles
- EcolA.go.h5: gene-gene dissimilarity matrix based on Gene Ontology annotations
- EcolA.string.combined_score.h5: gene-gene dissimilarity matrix based on STRING combined score
- EcolA.pp.0.7.jaccard.h5: gene-gene dissimilarity matrix based on phylogenetic profiles (selected strains)
- EcolA.pp.all.jaccard.h5: gene-gene dissimilarity matrix based on phylogenetic profiles (all available strains)
- EcolA.gn.0.7.h5: gene-gene dissimilarity matrix based on genomic context (selected strains)