M1 MABS TDB TD Transcriptome - Analyse differentielle

From silico.biotoul.fr

(Difference between revisions)

Revision as of 07:48, 17 October 2011

La cryopréservation est une méthode largement utilisée pour le stockage à long terme de nombreuses cellules vivantes. Cette méthode implique des traitements de congélation et de décongélation qui causent des dommages aux cellules vivantes, voire souvent, leur mort. Les puces à ADN permettent de mesurer les niveaux d'expression de milliers de gènes simultanément et de suivre les réponses biologiques à travers le niveau d'expression de presque tous les gènes de l'organisme. Nous allons analyser la réponse de cellules de levure après cryopréservation à partir de données de transcriptome publiées dans une étude de l'impact de la crypréservation sur la levure Odani et al. 2003.

Récupération des données à partir d'un entrepôt de données de transcriptome

Il existe plusieurs entrepôts de données pour les données de transcriptome. Les principaux sont Gene Expression Omnibus (GEO) du NCBI, ArrayExpress de l'EBI, ainsi que le Stanford Microarray Database (SMD). A partir de GEO du NCBI, retrouvez les données associées à la publication Odani et al. 2003.

Vous devriez trouver la série GSE9404. Lisez la page décrivant les données, puis téléchargez les données brutes (GSM239212..GSM239220) dans un répertoire que vous aurez créé pour vos analyses. Ensuite, décompressez ces fichiers (soit avec la commande gunzip sous linux, soit avec un logiciel de compression/décompression tel que 7-Zip.

Importation des données avec limma

Le package limma est spécialement conçu pour analyser les données de biopuces bi-couleurs. Il permet l'importation de fichiers de sortie des logiciels d'analyse d'image les plus courants dans le domaine des biopuces, la normalisation des données et l'analyse différentielle (pour une présentation détaillée, voir la page web http://bioinf.wehi.edu.au/limma/).

Le chargement du package est ensuite commandé par :

# Chargement du package limma
library(limma)

Remarque : limma dispose d'un guide utilisateur accessible et pédagogique, incluant notamment de nombreux exemples d'utilisation. Pour y accéder :

limmaUsersGuide()

Afin d'éviter d'avoir à indiquer de manière répétée le répertoire de travail contenant les fichiers de données au cours de la procédure d'importation des données, on peut le définir comme répertoire de travail pour l'ensemble de la session :

Sous Windows, vous pouvez changer le répertoire de travail à partir du menu Fichier puis changer le répertoire courant...
Sous Linux et Windows !

# sous Windows, remplacer "C:\Users\etudiant\My Documents\Transcriptome\" par l'endroit où vous avez placé vos fichiers 
setwd("C:\Users\etudiant\My Documents\Transcriptome\") 
# de même sous linux :
setwd("/home/etudiant/Documents/Transcriptome/")

Le format des données de biopuces nécessaire à toute analyse statistique est un tableau dont les lignes sont associées à des puces et les colonnes à des gènes. Or, le plus souvent le point de départ de l'analyse repose sur autant de fichiers de sortie d'un logiciel d'analyse d'images qu'il y a de puces. Le package limma prévoit donc une procédure d'importation de ces fichiers conduisant à la création d'un tableau de données. La conversion de plusieurs fichiers en un seul tableau pucesxgènes nécessite quelques indications permettant de piloter l'ordonnancement des valeurs d'expressions géniques dans le jeu de données. Ces informations sont contenues dans un fichier supplémentaire nommé dans la suite targets.txt.

Le fichier `targets.txt`

Le fichier targets.txt doit contenir les colonnes suivantes :

FileName donnant le nom des fichiers d'images,
Cy3 donnant la modalité du facteur marquée en vert,
Cy5 donnant la modalité du facteur marquée en rouge.

Les autres colonnes sont optionnelles. On donne le fichier targets_15min.txt suivant correspondant à la première série de réplicats effectués 15 minutes après décongélation.

Table 1 : Contenu du fichier targets15min.txt.
FileName	SlideNumber	Cy3	Cy5
GSM239212.gpr	1	ref	15min
GSM239213.gpr	2	ref	15min
GSM239214.gpr	3	ref	15min

La commande suivante permet de lire le fichier targets.txt et de créer un objet R, nommé ici targets, héritant de l'information contenue dans le fichier :

# Lecture de targets.txt
targets=readTargets("Targets15min.txt",sep="\t")

L'argument sep définit le type de séparateur utilisé pour délimiter les colonnes dans le fichier targets.txt. Ici, on précise que le séparateur est la tabulation (\t).

Créez ou récupérez le fichier targets puis chargez le dans un object R targets.

Remarque : pour obtenir de l'aide sur une commande ou fonction :

# affiche l'aide de la fonction readTargets
help(readTargets)

Données

GSE9404_RAW.tar

@@ Line 1: / Line 1: @@
 La cryopréservation est une méthode largement utilisée pour le stockage à long terme de nombreuses cellules vivantes. Cette méthode implique des traitements de congélation et de décongélation qui causent des dommages aux cellules vivantes, voire souvent, leur mort. Les puces à ADN permettent de mesurer les niveaux d'expression de milliers de gènes simultanément et de suivre les réponses biologiques à travers le niveau d'expression de presque tous les gènes de l'organisme. Nous allons analyser la réponse de cellules de levure après cryopréservation à partir de données de transcriptome publiées dans une étude de l'impact de la crypréservation sur la levure [http://www.ncbi.nlm.nih.gov/sites/entrez?Db=Pubmed&term=14580849 Odani et al. 2003].
 == Récupération des données à partir d'un entrepôt de données de transcriptome ==
@@ Line 6: / Line 7: @@
 Vous devriez trouver la série [http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE9404 GSE9404]. '''Lisez la page décrivant les données, puis téléchargez les données brutes (GSM239212..GSM239220) dans un répertoire que vous aurez créé pour vos analyses. Ensuite, décompressez ces fichiers''' (soit avec la commande gunzip sous linux, soit avec un logiciel de compression/décompression tel que [http://www.7-zip.org/ 7-Zip].
+== Importation des données avec limma ==
+Le package limma est spécialement conçu pour analyser les données de biopuces bi-couleurs. Il permet l'importation de fichiers de sortie des logiciels d'analyse d'image les plus courants dans le domaine des biopuces, la normalisation des données et l'analyse différentielle (pour une présentation détaillée, voir la page web http://bioinf.wehi.edu.au/limma/).
+Le chargement du package est ensuite commandé par :
+<source lang="rsplus">
+# Chargement du package limma
+library(limma)
+</source>
+Remarque : limma dispose d'un guide utilisateur accessible et pédagogique, incluant notamment de nombreux exemples d'utilisation. Pour y accéder :
+<source lang="rsplus">
+limmaUsersGuide()
+</source>
+Afin d'éviter d'avoir à indiquer de manière répétée le répertoire de travail contenant les fichiers de données au cours de la procédure d'importation des données, on peut le définir comme répertoire de travail pour l'ensemble de la session :
+* Sous Windows, vous pouvez changer le répertoire de travail à partir du menu <tt>Fichier</tt> puis <tt>changer le répertoire courant...</tt>
+* Sous Linux et Windows !
+<source lang="rsplus">
+# sous Windows, remplacer "C:\Users\etudiant\My Documents\Transcriptome\" par l'endroit où vous avez placé vos fichiers
+setwd("C:\Users\etudiant\My Documents\Transcriptome\")
+# de même sous linux :
+setwd("/home/etudiant/Documents/Transcriptome/")
+</source>
+Le format des données de biopuces nécessaire à toute analyse statistique est un tableau dont les lignes sont associées à des puces et les colonnes à des gènes. Or, le plus souvent le point de départ de l'analyse repose sur autant de fichiers de sortie d'un logiciel d'analyse d'images qu'il y a de puces. Le package ''limma'' prévoit donc une procédure d'importation de ces fichiers conduisant à la création d'un tableau de données. La conversion de plusieurs fichiers en un seul tableau puces<tt>x</tt>gènes nécessite quelques indications permettant de piloter l'ordonnancement des valeurs d'expressions géniques dans le jeu de données. Ces informations sont contenues dans un fichier supplémentaire nommé dans la suite <tt>targets.txt</tt>.
+===Le fichier <tt>targets.txt</tt>===
+Le fichier <tt>targets.txt</tt> doit contenir les colonnes suivantes :
+* <tt>FileName</tt> donnant le nom des fichiers d'images,
+* <tt>Cy3</tt> donnant la modalité du facteur marquée en vert,
+* <tt>Cy5</tt> donnant la modalité du facteur marquée en rouge.
+Les autres colonnes sont optionnelles. On donne le fichier <tt>targets_15min.txt</tt> suivant correspondant à la première série de réplicats effectués 15 minutes après décongélation.
+{| border="1" cellspacing="0"
+|+ Table 1 : Contenu du fichier [[Media:targets15min.txt|targets15min.txt]].
+|-
+! FileName	!! SlideNumber	!! Cy3	!! Cy5
+|-
+|  GSM239212.gpr	|| 1	|| ref	|| 15min
+|-
+| GSM239213.gpr	|| 2	|| ref	|| 15min
+|-
+| GSM239214.gpr	|| 3	|| ref	|| 15min
+|}
+La commande suivante permet de lire le fichier <tt>targets.txt</tt> et de créer un objet R, nommé ici <tt>targets</tt>, héritant de l'information contenue dans le fichier :
+<source lang="rsplus">
+# Lecture de targets.txt
+targets=readTargets("Targets15min.txt",sep="\t")
+</source>
+L'argument <tt>sep</tt> définit le type de séparateur utilisé pour délimiter les colonnes dans le fichier <tt>targets.txt</tt>. Ici, on précise que le séparateur est la tabulation (<tt>\t</tt>).
+'''Créez ou récupérez le fichier <tt>targets</tt> puis chargez le dans un object R <tt>targets</tt>.'''
+'''Remarque :''' pour obtenir de l'aide sur une commande ou fonction :
+<source lang="rsplus">
+# affiche l'aide de la fonction readTargets
+help(readTargets)
+</source>
 == Données ==
 * [[silico:enseignement/m1-mabs/transcriptome/GSE9404_RAW.tar|GSE9404_RAW.tar]]