From silico.biotoul.fr

(Difference between revisions)

Current revision as of 13:27, 19 October 2015

Analyse de transcriptome de souches de Pseudomonas aeruginosa ayant infecté des patients atteints de mucoviscidose

Etude basée sur la publicaton de Lei Yang et al. Bacterial adaptation during chronic infection revealed by independent component analysis of transcriptomic data.

Récupération des données

Récupérer les données relatives à cette publication sur GEO. Pour cela, il vous faudra retrouver dans la publication les références du jeu de données qu'ils ont utilisé.

Normalisation

Le format est celui d'Affymetrix (fichiers .CEL). Nous utiliserons donc la librarie affy de R/Bioconductor.

Après avoir désarchivé les données dans un répertoire, changer le répertoire courant dans R pour se placer dans le répertoire contenant les fichiers .CEL. L'ensemble des données contenues dans les fichiers GSMxxx.CEL est chargé sous R avec les commandes suivantes :

# si la librairie n'est pas installée (cf. http://bioconductor.org) :
# source("http://bioconductor.org/biocLite.R")
# biocLite("affy")
# chargement de la librairie
library(affy)
raw=ReadAffy()

En effet, par défaut, la fonction ReadAffy() charge tous les fichiers .CEL du répertoire courant.

On peut s'assurer du besoin de normaliser avec une boite à moustache :

boxplot(raw)

Pour la normalisation, nous utiliserons la fonction rma() (Robust Multiarray Averaging) de la librairie affy :

raw.rma=rma(raw)

L'objet raw.rma est de type ExpressionSet et contient l'ensemble des données normalisées. Nous nous intéresserons uniquement aux intensités que nous récupérons avec la commande suivante :

rma.expr=exprs(raw.rma)

Pour plus d'information sur le type ExpressionSet vous pouvez consulter l'aide :

?ExpressionSet

Le résultat de la normalisation peut aussi se visualiser avec une boite à moustache :

par(mfrow=c(2,1))
boxplot(raw)
boxplot(rma.expr)

Données annexes sur les hybridations

Afin de plus facilement analyser les données, les informations de la publication concernant le stade ou phénotype (early, late, mucoid) des bactéries a été compilé dans le fichier suivant :

Table 1 : Contenu du fichier chips_info.txt.
FileName	Experience	color
GSM774085_CF30-1979a.CEL	CF30.1979.late	red
GSM774086_CF30-1979b.CEL	CF30.1979.late	red
GSM774086_CF30-1979c.CEL	CF30.1979.late	red
GSM774088_CF43-1973a.CEL	CF43.1973.early	green
...	...	...

Charger ces données dans un objet que l'on appellera info.

Clustering des profils

Pour effectuer des analyses de clustering, nous utiliserons la fonction heatplot de la librairie made4. Cette fonction reprend les fonctionnalités de la fonction heatmap vue dans un TD précédent. Elle permet notamment d'utiliser une méthode de distance entre profils d'expression basé sur le coefficient de corrélation de Pearson.

Effectuer un premier clustering avec les paramètres par défaut :

# chargement de la librairie
library(made4)
# on revient à un seul graphique
par(mfrow=c(1,1))
# affichage du clustering
heatplot(rma.expr, dend='column')

L'affichage étant lent à cause du nombre important de lignes, vous pouvez n'afficher que le dendrogramme sur les colonnes (hybridations) :

heatplot(rma.expr, dend='column')

Nous allons ensuite changer les couleurs pour un meilleur contraste :

heatplot(rma.expr, dend='column', lowcol="blue",highcol="yellow", cols.default=FALSE)

Puis, ajouter les informations concernant les puces que vous avez normalement chargé dans l'objet info :

heatplot(rma.expr, dend='column', lowcol="blue",highcol="yellow", ColSideColors=as.character(info$color),cols.default=FALSE)

Est-ce que les réplicats sont regroupés dans les mêmes clusters ?

Est-ce que les différents stades/phénotypes forment des clusters ?

Par défaut, la méthode pour mesurer la distance entre 2 profils est basée sur le coefficient de corrélation de Pearson (1 - r). Essayer avec une autre méthode de distance : la distance euclidienne

heatplot(rma.expr, dend="column", lowcol="blue",highcol="yellow", ColSideColors=as.character(info$color),cols.default=FALSE, distfun="euclidean")

Que pensez vous du résultat : vous paraît-il meilleur ?

Par défaut, la méthode pour identifier les clusters à fusionner est average linkage. Essayer avec une autre méthode de distance entre clusters : single linkage

heatplot(rma.expr, dend="column", lowcol="blue",highcol="yellow", ColSideColors=as.character(info$color),cols.default=FALSE, method="single")

Que pensez vous du résultat : vous paraît-il meilleur ?

Essayer également avec la méthode complete linkage :

heatplot(rma.expr, dend="column", lowcol="blue",highcol="yellow", ColSideColors=as.character(info$color),cols.default=FALSE, method="complete")

Consultez l'aide de la fonction heatplot. Y a-t-il d'autres méthodes disponibles ? Essayez-les et notez le résultat qui vous semble le meilleur.

Analyse d'un compendium de données de transcriptome de levure Saccharomyces cerevisiae

Clustering des profils avec MeV

Dans cette partie, vous allez utiliser des données de transcriptome de levure obtenues pour environ 300 mutants (approche compendium). L'idée est d'effectuer un clustering hiérarchique des profils d'expression des gènes dans toutes ces conditions expérimentales afin d'identifier des ensembles de gènes co-exprimés et donc potentiellement co-régulés et qui pourraient donc participer à un même processus biologique. Une fois les gènes regroupés en cluster, le but est de caractériser ces ensembles de gènes par des méthodes de surreprésentation statistique pour identifier dans quel(s) processus biologique(s) ils sont impliqués. L'analyse plus fine d'un cluster de gènes pourra permettre par la suite d'attribuer un processus biologique potentiel pour un gène de fonction inconnue dont le profil d'expression est fortement corrélé avec ceux d'un groupe de gènes bien connus.

Les données que vous allez utiliser ont été rassemblées et analysées et ont fait l'objet d'une publication dont l'identifiant PubMed est 10929718. Retrouver et lire l'abstract sur PubMed.

Avant de réellement analyser ces données, il est préférable d'appliquer un certain filtrage. Pour simplifier pour ce TD, nous avons retenu seulement les gènes au moins 2x plus ou 2x moins exprimés dans au moins 5 conditions ainsi que les conditions pour lesquelles on a au moins 5 gènes 2x plus ou 2x moins exprimés. Télécharger les données sélectionnées et les désarchiver dans votre répertoire de travail.

Nous allons maintenant utiliser un logiciel un peu plus convivial que la ligne de commande R. Trouver dans le menu démarrer le logiciel qui s'appelle MeV pour MultiExperiment Viewer.

Charger ensuite le jeu de données que vous avez extrait à l'étape précédente à partir du menu File->Load Data.

Explorer l'interface utilisateur. Vous trouverez notamment un menu proposant différentes méthodes de clustering, ainsi qu'un menu permettant d'appliquer différents tests statistiques (Student, ANOVA). Remarque : vous pouvez ajuster la taille d'affichage des ratios dans le menu Display->Set element size.

Essayer de transformer les données (menu Adjust Data et d'ajuster les couleurs (menu Display) pour un meilleur rendu. A quoi correspond la fonction Adjust Data->Gene/Row adjustments->Divide Genes/Rows by SD ? la fonction Sample/Column Adjustments->Mean Center Samples/Columns ?

Effectuer des clustering hiérarchiques avec différents paramètres (nombre de clusters, mesures de distance entre profils et entre cluster).

Quand vous serez satisfait de votre clustering hiérarchique, sélectionnez certains clusters, notamment ceux pour lesquels l'expression des gènes semble la plus homogène. Pour cela, il vous faut cliquer sur l'arbre (normalement à gauche des profils) pour sélectionner un cluster ; un clic droit sur le cluster propose un menu contextuel permettant de sauvegarder le groupe de gènes ou échantillons dans le gestionnaire de clusters (Cluster Manager) avec la fonction store cluster.

A présent, sélectionnez, enregistrez et analysez les clusters qui vous semblent pertinents. Pour l'analyse, utilisez l'outil YeastSpec/funSpec en utilisant les sources de données suivantes : MIPS Functional Classification, MIPS Phenotypes, MIPS Subcellular Localization, MIPS Protein Complexes, et GO Biological Process. Interpréter les résultats obtenus.

Pour finir, essayer de retrouver le cluster mis en avant dans la publication associée à FunSpec en figure 1 (celui enrichi en gènes impliqués dans la biosynthèse des acides aminés).

Données

selected_ratios_log2.zip

@@ Line 12: / Line 12: @@
 Après avoir désarchivé les données dans un répertoire, changer le répertoire courant dans R pour se placer dans le répertoire contenant les fichiers .CEL. L'ensemble des données contenues dans les fichiers GSMxxx.CEL est chargé sous R avec les commandes suivantes :
 <source lang="rsplus">
+# si la librairie n'est pas installée (cf. http://bioconductor.org) :
+# source("http://bioconductor.org/biocLite.R")
+# biocLite("affy")
 # chargement de la librairie
 library(affy)
@@ Line 96: / Line 99: @@
 * Est-ce que les réplicats sont regroupés dans les mêmes clusters ?
-* Est-ce que les différents stades/phénotypes forment de clusters ?
+* Est-ce que les différents stades/phénotypes forment des clusters ?
 Par défaut, la méthode pour mesurer la distance entre 2 profils est basée sur le coefficient de corrélation de Pearson (<tt>1 - r</tt>). Essayer avec une autre méthode de distance : la distance euclidienne
@@ Line 115: / Line 118: @@
 <source lang="rsplus">
 heatplot(rma.expr, dend="column", lowcol="blue",highcol="yellow", ColSideColors=as.character(info$color),cols.default=FALSE, method="complete")
-heatplot(rma.expr, dend="column", lowcol="blue",highcol="yellow", ColSideColors=as.character(info$color),cols.default=FALSE, method="ward")
+</source>  <!-- heatplot(rma.expr, dend="column", lowcol="blue",highcol="yellow", ColSideColors=as.character(info$color),cols.default=FALSE, method="ward") -->
-</source>
 Consultez l'aide de la fonction heatplot. Y a-t-il d'autres méthodes disponibles ? Essayez-les et notez le résultat qui vous semble le meilleur.
+<!--
 == Préparation des données ==
-Chaque expérience a été menée en triplicat. Afin de réaliser le clustering, nous allons faire la moyenne des intensités obtenues pour chaque réplicat :
+Chaque expérience a été menée en triplicat. Afin de réaliser le clustering, nous allons faire la moyenne des intensités obtenues pour chaque réplicat.
+Pour cela, il faut pour chaque gène/ligne (fonction apply), faire la moyenne des intensités correspondant au même prélèvement (fonction tapply)
 <source lang="rsplus">
-rma.mean=by(t(rma.expr), INDICES=info$Experience, FUN=mean)
+rma.mean = apply(rma.expr, 1, function(X) tapply(X, info$Experience, mean))
-mat=matrix(unlist(rma.mean),nrow=nrow(rma.expr),byrow=F,dimnames=list(rownames(rma.expr),names(rma.mean)))
+dim(rma.mean)
 </source>
-La fonction <tt>by()</tt> de R permet d'appliquer une fonction (ici <tt>mean</tt>) par modalité d'un facteur (ici correspondant à <tt>info$Experience</tt> dans lequel on a attribué le même nom aux réplicats). Le résultat est un objet un peu commode : nous avons pour chaque expérience, un vecteur contenant le niveau d'expression pour chaque spot. Nous re-transformons cette objet en matrice spots <tt>x</tt> conditions avec la fonction <tt>matrix</tt>.
+On obtient ainsi conditions en lignes (<tt>dim</tt> nous indique 26 lignes) et les gènes en colonnes (5900). Pour obtenir l'inverse (les gènes en lignes et les conditions en colonnes) :
+<source lang='rsplus'>
+mat = t(rma.mean)
+</source>
 Afin de pouvoir utiliser les couleurs affectées à chaque stade/phénotype, il nous faut sélectionner une ligne sur trois de l'objet <tt>info</tt> :
 <source lang="rsplus">
-# récupération d'une ligne sur trois
+# récupération d'une ligne sur trois (et seulement des colonnes 2 et 3 = Experience et color)
 mat.info=info[ seq(1,78,by=3), 2:3]
-# affectation du nom de puce aux ligne
+# affectation du stade/phénotype aux lignes
 rownames(mat.info)=mat.info$Experience
+mat.info
 # affectation de la couleur en fonction du nom de la puce
 mat.colors=mat.info[ colnames(mat), "color" ]
 </source>
-Vous pouvez maintenant réeffectuer des clustering en faisant varier le paramètre <tt>method</tt> et le paramètre <tt>distfun</tt>. Lesquels vous donnent le meilleur résultat ?
+Vous pouvez maintenant ré-effectuer des clustering en faisant varier le paramètre <tt>method</tt> et le paramètre <tt>distfun</tt>. Lesquels vous donnent le meilleur résultat ?
 Avant de passer à un autre logiciel, nous avons une dernière manipulation à effectuer : notre matrice d'expression contient les noms des probesets et non ceux des gènes. Pour récupérer les noms des gènes nous aurons besoins du fichier de GEO décrivant le microarray (ici GPL84). Récupérer ce fichier au format soft sur [http://www.ncbi.nlm.nih.gov/geo/ GEO]. Puis charger le de la manière suivante :
 <source lang="rsplus">
 # on ne tient pas compte des 27 premières constituant une en-tête (paramètre skip)
-# on ne garde que les colonnes 1 (petite descr), 2 (nom le + commun), et 11 (identifiant systématique, celui qui nous intéresse)
+GPL=read.table("GPL84.annot", header=TRUE, sep="\t", skip=27, fill=TRUE, row.names=1, quote="")
-GPL=read.table("GPL84.annot", header=TRUE, sep="\t", skip=27, fill=TRUE, row.names=1, quote="")[,c(1,2,11)]
+tail(GPL)
 # on se débarrase de la dernière ligne qui contient !platform_table_end
 GPL=GPL[-5901,]
@@ Line 152: / Line 160: @@
 La colonne 11 (<tt>platform_ORF</tt>) que nous avons gardé contient soit l'identifiant du gène soit rien. Nous allons donc l'utiliser pour ne garder que les gènes :
 <source lang="rsplus">
-rownames(mat) = GPL$Platform_ORF
+mat.genes = mat[GPL[,11]!='', ]
-mat.gene = mat[ rownames(mat)!='', ]
+dim(mat.genes)
+head(mat.genes)
+# On remplace les identifiants de spots par les identifiants de gènes :
+rownames(mat.genes) = GPL[ GPL[,11]!='', 11]
 # on sauvegarde pour l'ouvrir dans MeV
-write.table(mat.gene,"GSE31227_mean.txt", col.names=TRUE, row.names=TRUE, quote=FALSE, sep="\t")
+write.table(mat.genes,"GSE31227_mean.txt", col.names=TRUE, row.names=TRUE, quote=FALSE, sep="\t")
 </source>
 == Clustering des profils avec MeV ==
@@ Line 172: / Line 184: @@
 Pour étudier si les clusters que vous avez sélectionnés sont ''enrichis'' avec certaines annotations, analysez ensuite les à l'aide du programme [http://silico.biotoul.fr/cgi-bin/mobyle/portal.py#forms::sook sook] que vous trouverez sur l'environnement [http://silico.biotoul.fr/cgi-bin/mobyle/portal.py mobyle] hébergé au LMGM. Ce programme permet de comparer statistiquement votre cluster soit aux ensembles de gènes annotés avec un même terme de la Gene Ontology, soit aux ensembles de gènes partageant un même mot-clé dans UniProt.
+-->
 = Analyse d'un compendium de données de transcriptome de levure ''Saccharomyces cerevisiae'' =
-Dans cette partie, vous allez utiliser des données de transcriptome de levure obtenues pour environ 300 mutants (approche compendium). L'idée est d'effectuer un clustering hiérarchique des profils d'expression des gènes dans toutes ces conditions expérimentales afin d'identifier des ensembles de gènes co-exprimés et donc potentiellement co-régulés et qui pourraient donc participer à un même processus biologique. Une fois les gènes regroupés en cluster, le but est de caractériser ces ensembles de gènes par des méthodes de surreprésentation statistique pour identifier dans quel(s) processus biologique(s) ils sont impliqués. L'analyse plus fine d'un cluster de gènes pourra permettre par la suite d'attribuer un processus biologique potentiel pour un gène de fonction inconnue dont le profil d'expression est fortement corrélé avec ceux d'un groupe de gènes bien connus.
-Les données que vous allez utiliser ont été rassemblées et analysées et ont fait l'objet d'une publication dont l'identifiant PubMed est 10929718. Retrouver et lire l'abstract sur [http://www.ncbi.nlm.nih.gov/sites/entrez?db=PubMed PubMed]. Télécharger les données sur les [[silico:enseignement/m1-mabs/transcriptome/ratios_1-300_log2.zip|ratios d'expression pour les 300 conditions]] et les décompresser dans votre répertoire de travail. Importez-les ensuite dans MeV et effectuer un clustering hiérarchique. Remarque : vous pouvez ajuster la taille d'affichage des ratios dans le menu <tt>Display->Set element size</tt>.
+== Clustering des profils avec MeV ==
-Avant de réellement analyser ces données, il est préférable d'appliquer un certain filtrage. Pour simplifier pour ce TD, nous avons retenu seulement les gènes au moins 2x plus ou 2x moins exprimés dans au moins 5 conditions ainsi que les conditions pour lesquelles on a au moins 5 gènes 2x plus ou 2x moins exprimés. Télécharger les [[silico:enseignement/m1-mabs/transcriptome/selected_ratios_log2.zip|données sélectionnées]] et refaites le clustering comme précédemment.
+Dans cette partie, vous allez utiliser des données de transcriptome de levure obtenues pour environ 300 mutants (approche compendium). L'idée est d'effectuer un '''clustering hiérarchique des profils d'expression des gènes''' dans toutes ces conditions expérimentales afin d'identifier des ensembles de '''gènes co-exprimés''' et donc potentiellement co-régulés et qui pourraient donc participer à un même processus biologique. Une fois les gènes regroupés en cluster, le but est de '''caractériser ces ensembles de gènes''' par des méthodes de surreprésentation statistique pour '''identifier dans quel(s) processus biologique(s)''' ils sont impliqués. L'analyse plus fine d'un cluster de gènes pourra permettre par la suite d'attribuer un processus biologique potentiel pour un gène de fonction inconnue dont le profil d'expression est fortement corrélé avec ceux d'un groupe de gènes bien connus.
+Les données que vous allez utiliser ont été rassemblées et analysées et ont fait l'objet d'une publication dont l'identifiant PubMed est 10929718. Retrouver et lire l'abstract sur [http://www.ncbi.nlm.nih.gov/sites/entrez?db=PubMed PubMed].
+<!--Télécharger les données sur les [[silico:enseignement/m1-mabs/transcriptome/ratios_1-300_log2.zip|ratios d'expression pour les 300 conditions]] et les décompresser dans votre répertoire de travail. Importez-les ensuite dans MeV et effectuer un clustering hiérarchique. Remarque : vous pouvez ajuster la taille d'affichage des ratios dans le menu <tt>Display->Set element size</tt>.
+-->
+Avant de réellement analyser ces données, il est préférable d'appliquer un certain filtrage. Pour simplifier pour ce TD, nous avons retenu seulement les gènes au moins 2x plus ou 2x moins exprimés dans au moins 5 conditions ainsi que les conditions pour lesquelles on a au moins 5 gènes 2x plus ou 2x moins exprimés. Télécharger les [[silico:enseignement/m1-mabs/transcriptome/selected_ratios_log2.zip|données sélectionnées]] et les désarchiver dans votre répertoire de travail.
+Nous allons maintenant utiliser un logiciel un peu plus convivial que la ligne de commande R. Trouver dans le menu démarrer le logiciel qui s'appelle '''[http://www.tm4.org/mev/ MeV] pour MultiExperiment Viewer'''.
+Charger ensuite le jeu de données que vous avez extrait à l'étape précédente à partir du menu <tt>File->Load Data</tt>.
+Explorer l'interface utilisateur. Vous trouverez notamment un menu proposant différentes méthodes de clustering, ainsi qu'un menu permettant d'appliquer différents tests statistiques (Student, ANOVA). Remarque : vous pouvez ajuster la taille d'affichage des ratios dans le menu <tt>Display->Set element size</tt>.
+Essayer de transformer les données (menu <tt>Adjust Data</tt> et d'ajuster les couleurs (menu <tt>Display</tt>) pour un meilleur rendu. A quoi correspond la fonction <tt>Adjust Data->Gene/Row adjustments->Divide Genes/Rows by SD</tt> ? la fonction <tt>Sample/Column Adjustments->Mean Center Samples/Columns</tt> ?
+Effectuer des clustering hiérarchiques avec différents paramètres (nombre de clusters, mesures de distance entre profils et entre cluster).
+Quand vous serez satisfait de votre clustering hiérarchique, sélectionnez certains clusters, notamment ceux pour lesquels l'expression des gènes semble la plus homogène. Pour cela, il vous faut cliquer sur l'arbre (normalement à gauche des profils) pour sélectionner un cluster ; un clic droit sur le cluster propose un menu contextuel permettant de sauvegarder le groupe de gènes ou échantillons dans le gestionnaire de clusters (<tt>Cluster Manager</tt>) avec la fonction <tt>store cluster</tt>.
 A présent, sélectionnez, enregistrez et analysez les clusters qui vous semblent pertinents. Pour l'analyse, utilisez l'outil [http://funspec.med.utoronto.ca/ YeastSpec/funSpec] en utilisant les sources de données suivantes : MIPS Functional Classification, MIPS Phenotypes, MIPS Subcellular Localization, MIPS Protein Complexes, et GO Biological Process. Interpréter les résultats obtenus.
+Pour finir, essayer de retrouver le cluster mis en avant dans la publication associée à [http://www.biomedcentral.com/1471-2105/3/35 FunSpec en figure 1] (celui enrichi en gènes impliqués dans la biosynthèse des acides aminés).
 = Données =

M1 MABS TDB TD Transcriptome - Clustering