silico.biotoul.fr
 

M2BBS - IDH

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m
m (Prise en main de la librairie R/Bioconductor STRINGdb)
Line 18: Line 18:
<!-- * Modifier le script pour utiliser une autre mesure d'enrichissement et comparer les résultats obtenus (ex: &chi;<sup>2</sup> d'indépendance). (Travail à réaliser <u>en dehors de cette séance</u>) -->
<!-- * Modifier le script pour utiliser une autre mesure d'enrichissement et comparer les résultats obtenus (ex: &chi;<sup>2</sup> d'indépendance). (Travail à réaliser <u>en dehors de cette séance</u>) -->
-
=Prise en main de la librairie R/Bioconductor STRINGdb=
+
=Prise en main de la librairie R/Bioconductor RSTRINGdb=
 +
 
 +
Sites et documentation :
 +
* STRING : http://string-db.org/
 +
* RSTRINGdb : https://bioconductor.org/packages/release/bioc/html/STRINGdb.html
 +
* RSTRINGdb [[Media:RSTRINGdb.Vignette.pdf|Vignette]] et [[Media:RSTRINGdb.man.pdf|Man]]
Travail à réaliser :
Travail à réaliser :
Line 27: Line 32:
* Afficher le sous graphe pour les groupe de gènes <tt>ALAS ARGS ASNS ASPS CYSS GLTX GLYQ GLYS HISS ILES</tt>. A quoi correspond la p-valeur affichée ?
* Afficher le sous graphe pour les groupe de gènes <tt>ALAS ARGS ASNS ASPS CYSS GLTX GLYQ GLYS HISS ILES</tt>. A quoi correspond la p-valeur affichée ?
* Télécharger les annotations associées à chaque sommet.
* Télécharger les annotations associées à chaque sommet.
-
 
-
 
-
<!--
 
-
= Prioritization =
 
-
Installation des bibliothèques requises :
 
-
dnf -y install hdf5.x86_64 hdf5-devel.x86_64 h5py python-matplotlib.x86_64
 
-
pip install scikit-learn
 
-
<!--
 
-
easy_install pip
 
-
pip list
 
-
pip search h5py
 
-
pip install h5py
 
-
yum -y install libpng-devel.x86_64
 
-
pip install matplotlib
 
-
-->
 
-
<!--
 
-
Prise en main des scripts
 
-
* librairie [[Media:Prioritization.py|Prioritization.py]]: classes pour la priorisation de gènes par fusion de données génomiques
 
-
** ScoreMatrix: matrice de dissimilarité/similarité/distance entre paires de gènes
 
-
** Identifiers et IdentifierMap: chargement et manipulation d'identifiant de gènes
 
-
** PrioritizedItem: représentation d'un candidat évalué (score, rank, ...)
 
-
** Prioritizer: priorisation et fusion à partir de différentes matrices
 
-
* script [[Media:mat.info.py|mat.info.py]]: affiche les informations contenues dans un fichier HDF5 représentant une matrice
 
-
* script [[Media:prioritize.py|prioritize.py]]: Chargement d'une matrice et priorisation des candidats par rapport aux gènes d'entrainement
 
-
* script [[Media:fuse.py|fuse.py]]: Fusion de priorisations obtenues avec le script précédent
 
-
 
-
Représentation d'une matrice de distance avec le format HDF5.
 
-
 
-
Jeu de données :
 
-
* Gènes impliqués dans la synthèse du peptidoglycane :
 
-
** core : MURA MURB MURC MURD MURE MURF MRAY MURG
 
-
** biosynthèse : MURA MURB MURC MURD MURE MURF MRAY MURG GLMU MRSA GLMS BACA YAES DDLA DDLB DADX MURI DAPF DAPE ARGD DAPD DAPB DAPA ASD LYSC
 
-
* Systèmes ABC expertisés : [[Media:EcolA.ncleandb12.training.abc|EcolA.ncleandb12.training.abc]] et candidats [[Media:EcolA.ncleandb12.candidates.abc|EcolA.ncleandb12.candidates.abc]]
 
-
* Matrices :
 
-
** [[silico:enseignement/m2BBS/idh/EcolA.geo.h5|EcolA.geo.h5]]: gene-gene dissimilarity matrix based on GEO expression profiles
 
-
** [[silico:enseignement/m2BBS/idh/EcolA.go.h5|EcolA.go.h5]]: gene-gene dissimilarity matrix based on Gene Ontology annotations
 
-
** [[silico:enseignement/m2BBS/idh/EcolA.string.combined_score.h5|EcolA.string.combined_score.h5]]: gene-gene dissimilarity matrix based on STRING combined score
 
-
** [[silico:enseignement/m2BBS/idh/EcolA.pp.0.7.jaccard.h5|EcolA.pp.0.7.jaccard.h5]]: gene-gene dissimilarity matrix based on phylogenetic profiles (selected strains)
 
-
** [[silico:enseignement/m2BBS/idh/EcolA.pp.all.jaccard.h5|EcolA.pp.all.jaccard.h5]]: gene-gene dissimilarity matrix based on phylogenetic profiles (all available strains)
 
-
** [[silico:enseignement/m2BBS/idh/EcolA.gn.0.7.h5|EcolA.gn.0.7.h5]]: gene-gene dissimilarity matrix based on genomic context (selected strains)
 
-
 
-
Information sur un gène à partir de son identifiant dans ABCdb : https://www-abcdb.biotoul.fr/#/entry/findbestmatch/ID/EcolA.RBSA
 
-
-->
 
= Données et scripts =
= Données et scripts =

Revision as of 17:14, 18 September 2016

Enrichment analysis

Dans cette partie, il s'agit d'analyser un groupe de gènes en le confrontant à des groupes de gènes obtenus selon différentes fonctions de regroupement.

La fonction de regroupement proposée est l'appartenance à une même voie métabolique dans la banque de données BioCyc. Ainsi, pour chaque pathway, un groupe de gène est formé.

Le script python search_enriched_sets.py permet de charger ces ensembles de gènes pré-formés EcolA.biocyc.sets et de chercher les plus similaires à un groupe de gènes d'intérêts. Essayez-le avec ALAS ARGS ASNS ASPS CYSS GLTX GLYQ GLYS HISS ILES par exemple pour vous faire une idée de son fonctionnement.

Remarque : le script python utilise le module scipy.

root> pip install scipy

Comparez les résultats avec ceux obtenus en recherchant parmi les ensembles formés des gènes annotés avec le même terme de la Gene Ontology (EcolA.go.sets). Que constatez-vous ?

Travail à réaliser :

  • Analyser le code source du script search_enriched_sets.py
  • Pour chaque pathway biocyc, proposer le term GO le plus représentatif
  • Visualisation des résultats avec REVIGO

Prise en main de la librairie R/Bioconductor RSTRINGdb

Sites et documentation :

Travail à réaliser :

  • Installer la librairie (si nécessaire)
  • Retrouver l'espèce Escherichia coli K12 MG1655, quel est son identifiant taxonomique/STRINGdb ?
  • Quelle est la différence entre STRINGdb core et STRINGdb periphery ?
  • Télécharger tout le graphe pour E. coli K12 pour un seuil de 400. A quoi correspond ce seuil ? combien d'interactions obtenez-vous ?
  • Afficher le sous graphe pour les groupe de gènes ALAS ARGS ASNS ASPS CYSS GLTX GLYQ GLYS HISS ILES. A quoi correspond la p-valeur affichée ?
  • Télécharger les annotations associées à chaque sommet.

Données et scripts