silico.biotoul.fr
 

M2BBS - IDH

From silico.biotoul.fr

Revision as of 14:36, 28 September 2012 by Barriot (Talk | contribs)
Jump to: navigation, search

Contents

BioMart

Premier pas

  • Allez sur le site de l'EBI, puis sur BioMart pour récupérer les entrées du dataset Ensembl bacteria 14 d'Escherichia coli K-12.
  • Essayer différents filtres (ayant des termes GO, ou autre).
  • Sélectionner certains attributs.
  • Utiliser la fonctionnalité count puis results.

Installation locale

  • Aller sur le site de BioMart pour récupérer la dernière version.
  • Suivre le manuel utilisateur : Quick start pour mettre à disposition un jeu de données distant depuis votre serveur.

Ajout de sources locales et édition de liens

  • Télécharger le jeu de données gene (à la fin de cette page).
  • Créer une base de données MySql pour héberger les tables gene et strain, avec le schéma suivant :
    • gene(strain, gene, num, protein, start, end, function, uniprot)
    • strain(strain, taxonomy_id, name, species)
  • Alimenter ces tables avec les données téléchargées
  • Ajouter le dataset gene à votre serveur BioMart et créer un Access point correspondant
  • Ajouter un lien entre gene et strain
  • Ajouter un lien entre gene.uniprot et le jeu de données distant unimart

Services Web

  • Suivre l'exemple donné dans la documentation pour effectuer une requête sur votre instance BioMart afin de récupérer un jeu de données depuis un script python ou perl

Autres sources de données

  • Répartissez-vous le reste des données disponibles en fin de page (sauf BioCyc, donc GO, profils phylogénétiques, String, et transcriptome) pour créer les tables correspondantes, faire le lien avec gene sur le type de données que vous aurez choisi, puis faire le lien avec les types de données hébergés par les instances de vos collègues.

Confrontation des données : approche ensembliste

Préparation des données

Il s'agit de confronter des ensembles de gènes obtenus par différents critères de regroupement. Pour chacune des sources de données, il faut créer un fichier représentant les ensembles de gènes obtenus.

  • Profils phylogénétiques

Les profils fournis contiennent les informations de présence d'isorthologues (Iso), d'orthologues (Ort) ou de best hit (BeH) dans d'autres souches. Il faut convertir cette matrice sous forme 0/1 pour ensuite effectuer un clustering des profils. Quelques commandes R permettent cette manipulation :

# chargement de la matrice originale
m=read.table("EcolA.phylogenetic_profiles", header=T, row.names=1)
# création d'une matrice de mêmes dimensions ne contenant que des 0
n=matrix(data=0, nrow=nrow(m), ncol=ncol(m), dimnames=dimnames(m))
# positionnement à 1 pour les Iso
n[m=='Iso']=1
# clustering
library(ade4)
n.dist=dist.binary(n,1) # 1: jaccard
n.dist[which(is.na(n.dist))] = 1 # si une paire de profils ne contient que des 0
hc=hclust(m, method='ave') # average linkage
# sauvegarde pour utiliser un script perl pour convertir au format newick
write.table(hc$merge, "EcolA.phylogenetic_profiles.01.hclust.merge", row.names=F, col.names=F)
write.table(hc$labels, "EcolA.phylogenetic_profiles.01.hclust.labels", row.names=F, col.names=F, quote=F)


  • Transcriptome

Utiliser MeV (installé dans /opt/) pour effectuer un clustering hiérarchique des profils d'expression fournit et enregistrer le résultat au format newick (click droit sur l'arbre, puis save as newick).


  • Gene Ontology

Utiliser le script fourni (convertGO_from_categories_closure.pl), pour combiner le dag de la Gene Ontology (gene_ontology.obo) avec des associations gènes--GOTerm.

  • String

Effectuer un clustering avec MCL :

  • Sélectionner un score de String (coexpression ou text mining par exemple)
  • Eventuellement avec un seuil pour extraire les arêtes (>=500 par exemple)
  • Générer un fichier pour MCL au format une arête par ligne : gene1 gene2 score
  • Vérifier que le graphe est conséquent avec Cytoscape par exemple
  • Utiliser MCL et vérifier le nombre de clusters obtenus (1 par ligne)
  • Reformater le fichier pour qu'il soit lisible par sookoos (ajout d'un identifiant pour les clusters) :
echo # format: sets > EcolA.string.mcl.sets
cat -n out.EcolA.String.coexpression.edges.I20 | sed -r 's/^\s+/cluster_/'  >> EcolA.string.mcl.sets 


Recherche d'ensembles similaires

Priorisation

Données et scripts