silico.biotoul.fr
 

M1 MABS TDB TD Transcriptome - Analyse differentielle

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m
m
Line 35: Line 35:
Le format des données de biopuces nécessaire à toute analyse statistique est un tableau dont les lignes sont associées à des puces et les colonnes à des gènes. Or, le plus souvent le point de départ de l'analyse repose sur autant de fichiers de sortie d'un logiciel d'analyse d'images qu'il y a de puces. Le package ''limma'' prévoit donc une procédure d'importation de ces fichiers conduisant à la création d'un tableau de données. La conversion de plusieurs fichiers en un seul tableau puces<tt>x</tt>gènes nécessite quelques indications permettant de piloter l'ordonnancement des valeurs d'expressions géniques dans le jeu de données. Ces informations sont contenues dans un fichier supplémentaire nommé dans la suite <tt>targets.txt</tt>.
Le format des données de biopuces nécessaire à toute analyse statistique est un tableau dont les lignes sont associées à des puces et les colonnes à des gènes. Or, le plus souvent le point de départ de l'analyse repose sur autant de fichiers de sortie d'un logiciel d'analyse d'images qu'il y a de puces. Le package ''limma'' prévoit donc une procédure d'importation de ces fichiers conduisant à la création d'un tableau de données. La conversion de plusieurs fichiers en un seul tableau puces<tt>x</tt>gènes nécessite quelques indications permettant de piloter l'ordonnancement des valeurs d'expressions géniques dans le jeu de données. Ces informations sont contenues dans un fichier supplémentaire nommé dans la suite <tt>targets.txt</tt>.
 +
 +
 +
==Filtrage des spots==
 +
 +
Lors de la lecture des fichiers de sortie de logiciels d'analyse d'image, certaines fonctionnalités de limma permettent de contrôler la qualité des données d'expressions en chaque spot. En effet, ces fichiers contiennent eux-mêmes différentes indications sur la qualité des spots. Par exemple, les fichiers [http://http://mdc.custhelp.com/app/answers/detail/a_id/18883/%7E/genepix%E2%AE-file-formats Genepix] sont structurés comme des tableaux de données dont les lignes correspondent aux spots et les colonnes à des caractéristiques des données en chacun de ces spots. On trouve parmi ces caractéristiques :
 +
* <tt>Flags</tt> : type de Flag
 +
* <tt>F635 Median</tt> : intensité médiane pour le signal rouge (F pour foreground, 635 pour la longueur d'onde 635nm)
 +
* <tt>F532 Median</tt> : intensité médiane pour le signal vert
 +
* <tt>F635 Mean</tt> : intensité moyenne pour le signal rouge
 +
* <tt>F532 Mean</tt> : intensité moyenne pour le signal vert
 +
* <tt>B635 Median</tt> : intensité médiane du bruit de fond pour le rouge (B pour background)
 +
* ...
 +
 +
Il est donc possible de créer sa propre fonction de filtrage de spots : cette fonction, dont l'argument principal est le tableau spots x caractéristiques d'un fichier Genepix, prendra la valeur 1 si un spot est valide et 0 sinon. Par exemple, si on souhaite supprimer les spots dont les flags de Genepix sont inférieurs ou égaux à -49, il suffit de créer la fonction de filltrage suivante :
 +
# X désigne une ligne du tableau du fichier Genepix (un spot) # okFLAG=TRUE si Flags>-49, FALSE sinon # la fonction as.numeric convertit une valeur logique # en valeur numérique selon la règle suivante : TRUE vaut 1, FALSE vaut 0 myFilter = function(X) { okFLAG = X$Flags > -49; as.numeric(okFLAG) }
 +
 +
Définissez cette fonction dans votre session R.
 +
 +
 +

Revision as of 08:01, 17 October 2011

La cryopréservation est une méthode largement utilisée pour le stockage à long terme de nombreuses cellules vivantes. Cette méthode implique des traitements de congélation et de décongélation qui causent des dommages aux cellules vivantes, voire souvent, leur mort. Les puces à ADN permettent de mesurer les niveaux d'expression de milliers de gènes simultanément et de suivre les réponses biologiques à travers le niveau d'expression de presque tous les gènes de l'organisme. Nous allons analyser la réponse de cellules de levure après cryopréservation à partir de données de transcriptome publiées dans une étude de l'impact de la crypréservation sur la levure Odani et al. 2003.


Contents

Récupération des données à partir d'un entrepôt de données de transcriptome

Il existe plusieurs entrepôts de données pour les données de transcriptome. Les principaux sont Gene Expression Omnibus (GEO) du NCBI, ArrayExpress de l'EBI, ainsi que le Stanford Microarray Database (SMD). A partir de GEO du NCBI, retrouvez les données associées à la publication Odani et al. 2003.

Vous devriez trouver la série GSE9404. Lisez la page décrivant les données, puis téléchargez les données brutes (GSM239212..GSM239220) dans un répertoire que vous aurez créé pour vos analyses. Ensuite, décompressez ces fichiers (soit avec la commande gunzip sous linux, soit avec un logiciel de compression/décompression tel que 7-Zip.


Importation des données avec limma

Le package limma est spécialement conçu pour analyser les données de biopuces bi-couleurs. Il permet l'importation de fichiers de sortie des logiciels d'analyse d'image les plus courants dans le domaine des biopuces, la normalisation des données et l'analyse différentielle (pour une présentation détaillée, voir la page web http://bioinf.wehi.edu.au/limma/).

Le chargement du package est ensuite commandé par :

# Chargement du package limma
library(limma)

Remarque : limma dispose d'un guide utilisateur accessible et pédagogique, incluant notamment de nombreux exemples d'utilisation. Pour y accéder :

limmaUsersGuide()

Afin d'éviter d'avoir à indiquer de manière répétée le répertoire de travail contenant les fichiers de données au cours de la procédure d'importation des données, on peut le définir comme répertoire de travail pour l'ensemble de la session :

  • Sous Windows, vous pouvez changer le répertoire de travail à partir du menu Fichier puis changer le répertoire courant...
  • Sous Linux et Windows !
# sous Windows, remplacer "C:\Users\etudiant\My Documents\Transcriptome\" par l'endroit où vous avez placé vos fichiers 
setwd("C:\Users\etudiant\My Documents\Transcriptome\") 
# de même sous linux :
setwd("/home/etudiant/Documents/Transcriptome/")

Le format des données de biopuces nécessaire à toute analyse statistique est un tableau dont les lignes sont associées à des puces et les colonnes à des gènes. Or, le plus souvent le point de départ de l'analyse repose sur autant de fichiers de sortie d'un logiciel d'analyse d'images qu'il y a de puces. Le package limma prévoit donc une procédure d'importation de ces fichiers conduisant à la création d'un tableau de données. La conversion de plusieurs fichiers en un seul tableau pucesxgènes nécessite quelques indications permettant de piloter l'ordonnancement des valeurs d'expressions géniques dans le jeu de données. Ces informations sont contenues dans un fichier supplémentaire nommé dans la suite targets.txt.


Filtrage des spots

Lors de la lecture des fichiers de sortie de logiciels d'analyse d'image, certaines fonctionnalités de limma permettent de contrôler la qualité des données d'expressions en chaque spot. En effet, ces fichiers contiennent eux-mêmes différentes indications sur la qualité des spots. Par exemple, les fichiers Genepix sont structurés comme des tableaux de données dont les lignes correspondent aux spots et les colonnes à des caractéristiques des données en chacun de ces spots. On trouve parmi ces caractéristiques :

  • Flags : type de Flag
  • F635 Median : intensité médiane pour le signal rouge (F pour foreground, 635 pour la longueur d'onde 635nm)
  • F532 Median : intensité médiane pour le signal vert
  • F635 Mean : intensité moyenne pour le signal rouge
  • F532 Mean : intensité moyenne pour le signal vert
  • B635 Median : intensité médiane du bruit de fond pour le rouge (B pour background)
  • ...

Il est donc possible de créer sa propre fonction de filtrage de spots : cette fonction, dont l'argument principal est le tableau spots x caractéristiques d'un fichier Genepix, prendra la valeur 1 si un spot est valide et 0 sinon. Par exemple, si on souhaite supprimer les spots dont les flags de Genepix sont inférieurs ou égaux à -49, il suffit de créer la fonction de filltrage suivante :

  1. X désigne une ligne du tableau du fichier Genepix (un spot) # okFLAG=TRUE si Flags>-49, FALSE sinon # la fonction as.numeric convertit une valeur logique # en valeur numérique selon la règle suivante : TRUE vaut 1, FALSE vaut 0 myFilter = function(X) { okFLAG = X$Flags > -49; as.numeric(okFLAG) }

Définissez cette fonction dans votre session R.



Le fichier targets.txt

Le fichier targets.txt doit contenir les colonnes suivantes :

  • FileName donnant le nom des fichiers d'images,
  • Cy3 donnant la modalité du facteur marquée en vert,
  • Cy5 donnant la modalité du facteur marquée en rouge.

Les autres colonnes sont optionnelles. On donne le fichier targets_15min.txt suivant correspondant à la première série de réplicats effectués 15 minutes après décongélation.

Table 1 : Contenu du fichier targets15min.txt.
FileName SlideNumber Cy3 Cy5
GSM239212.gpr 1 ref 15min
GSM239213.gpr 2 ref 15min
GSM239214.gpr 3 ref 15min


La commande suivante permet de lire le fichier targets.txt et de créer un objet R, nommé ici targets, héritant de l'information contenue dans le fichier :

# Lecture de targets.txt
targets=readTargets("Targets15min.txt",sep="\t")

L'argument sep définit le type de séparateur utilisé pour délimiter les colonnes dans le fichier targets.txt. Ici, on précise que le séparateur est la tabulation (\t).

Créez ou récupérez le fichier targets puis chargez le dans un object R targets.

Remarque : pour obtenir de l'aide sur une commande ou fonction :

# affiche l'aide de la fonction readTargets
help(readTargets)





Données