silico.biotoul.fr
 

M2BBS - IDH

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Enrichment analysis)
m
Line 28: Line 28:
* Télécharger les annotations associées à chaque sommet.
* Télécharger les annotations associées à chaque sommet.
 +
 +
<!--
= Prioritization =
= Prioritization =
Installation des bibliothèques requises :
Installation des bibliothèques requises :
Line 40: Line 42:
  pip install matplotlib
  pip install matplotlib
-->
-->
-
 
+
<!--
Prise en main des scripts
Prise en main des scripts
* librairie [[Media:Prioritization.py|Prioritization.py]]: classes pour la priorisation de gènes par fusion de données génomiques
* librairie [[Media:Prioritization.py|Prioritization.py]]: classes pour la priorisation de gènes par fusion de données génomiques
Line 67: Line 69:
Information sur un gène à partir de son identifiant dans ABCdb : https://www-abcdb.biotoul.fr/#/entry/findbestmatch/ID/EcolA.RBSA
Information sur un gène à partir de son identifiant dans ABCdb : https://www-abcdb.biotoul.fr/#/entry/findbestmatch/ID/EcolA.RBSA
 +
-->
= Données et scripts =
= Données et scripts =
-
* biomart
 
-
** [[Media:M2BBS-IDH-gene.tar.bz2]]
 
* enrichment analysis
* enrichment analysis
** [[Media:search_enriched_sets.py]]  
** [[Media:search_enriched_sets.py]]  
** [[Media:EcolA.biocyc.sets]]  
** [[Media:EcolA.biocyc.sets]]  
** [[Media:EcolA.go.sets]]  
** [[Media:EcolA.go.sets]]  
 +
<!--
 +
* biomart
 +
** [[Media:M2BBS-IDH-gene.tar.bz2]]
* prioritization
* prioritization
** [[Media:Prioritization.py]]  
** [[Media:Prioritization.py]]  
Line 87: Line 91:
** [[silico:enseignement/m2BBS/idh/EcolA.pp.all.jaccard.h5|EcolA.pp.all.jaccard.h5]]: gene-gene dissimilarity matrix based on phylogenetic profiles (all available strains)
** [[silico:enseignement/m2BBS/idh/EcolA.pp.all.jaccard.h5|EcolA.pp.all.jaccard.h5]]: gene-gene dissimilarity matrix based on phylogenetic profiles (all available strains)
** [[silico:enseignement/m2BBS/idh/EcolA.gn.0.7.h5|EcolA.gn.0.7.h5]]: gene-gene dissimilarity matrix based on genomic context (selected strains)
** [[silico:enseignement/m2BBS/idh/EcolA.gn.0.7.h5|EcolA.gn.0.7.h5]]: gene-gene dissimilarity matrix based on genomic context (selected strains)
-
 
+
-->
<!--
<!--
* [[Media:M2BBS-IDH-go.tar.bz2]]  
* [[Media:M2BBS-IDH-go.tar.bz2]]  

Revision as of 16:28, 18 September 2016

Enrichment analysis

Dans cette partie, il s'agit d'analyser un groupe de gènes en le confrontant à des groupes de gènes obtenus selon différentes fonctions de regroupement.

La fonction de regroupement proposée est l'appartenance à une même voie métabolique dans la banque de données BioCyc. Ainsi, pour chaque pathway, un groupe de gène est formé.

Le script python search_enriched_sets.py permet de charger ces ensembles de gènes pré-formés EcolA.biocyc.sets et de chercher les plus similaires à un groupe de gènes d'intérêts. Essayez-le avec ALAS ARGS ASNS ASPS CYSS GLTX GLYQ GLYS HISS ILES par exemple pour vous faire une idée de son fonctionnement.

Remarque : le script python utilise le module scipy.

root> pip install scipy

Comparez les résultats avec ceux obtenus en recherchant parmi les ensembles formés des gènes annotés avec le même terme de la Gene Ontology (EcolA.go.sets). Que constatez-vous ?

Travail à réaliser :

  • Analyser le code source du script search_enriched_sets.py
  • Pour chaque pathway biocyc, proposer le term GO le plus représentatif
  • Visualisation des résultats avec REVIGO

Prise en main de la librairie R/Bioconductor STRINGdb

Travail à réaliser :

  • Installer la librairie (si nécessaire)
  • Retrouver l'espèce Escherichia coli K12 MG1655, quel est son identifiant taxonomique/STRINGdb ?
  • Quelle est la différence entre STRINGdb core et STRINGdb periphery ?
  • Télécharger tout le graphe pour E. coli K12 pour un seuil de 400. A quoi correspond ce seuil ? combien d'interactions obtenez-vous ?
  • Afficher le sous graphe pour les groupe de gènes ALAS ARGS ASNS ASPS CYSS GLTX GLYQ GLYS HISS ILES. A quoi correspond la p-valeur affichée ?
  • Télécharger les annotations associées à chaque sommet.


Données et scripts