silico.biotoul.fr
 

M1 MABS BBS BGPG TD GRNs - 2015

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Données)
m (Données)
Line 22: Line 22:
L'idée est de récupérer des données d'expression depuis GEO sur l'organisme qui nous intéresse. Ici, on prendra ''Escherichia coli''. Un certain nombre de design de microarray (GPLxxx) sont disponibles. Ceux arborant le plus d'hybridations (GSMxxx) sont [http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL199 GPL199] (52 séries GSExxx et 938 hybridations GSMxxx au 6 février 2013) et [http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3154 GPL3154] (121 séries et 956 hybridations au 6 février 2013 également).
L'idée est de récupérer des données d'expression depuis GEO sur l'organisme qui nous intéresse. Ici, on prendra ''Escherichia coli''. Un certain nombre de design de microarray (GPLxxx) sont disponibles. Ceux arborant le plus d'hybridations (GSMxxx) sont [http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL199 GPL199] (52 séries GSExxx et 938 hybridations GSMxxx au 6 février 2013) et [http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE3154 GPL3154] (121 séries et 956 hybridations au 6 février 2013 également).
-
Après avoir choisi d'utiliser GPL3154, les informations sur les 121 séries ont été étudiées pour sélectionner les plus pertinentes (en fonction de la souche dont proviennent les ARNm extraits, des conditions expérimentales, etc.).  
+
Après avoir choisi d'utiliser GPL3154, les informations sur les 121 séries ont été étudiées pour sélectionner les plus pertinentes (en fonction de la souche dont proviennent les ARNm extraits, des conditions expérimentales, etc.). Au total, cela fait un peu plus de 800 hybridations. Le fichier GPL et les fichiers GSM ont été téléchargés. Les données ont ensuite été normalisées de manière à pouvoir comparer le niveau d'expression d'un gène dans une condition par rapport à son niveau d'expression dans une autre condition (cf. [[M1_MABS_TDB_TD_Transcriptome_-_Clustering ici]] pour la procédure de chargement et de normalisation des données). Après normalisation, les données ont été prétraités afin d'avoir une matrice gènes-conditions. Pour d'associer un identifiant de spot/probeset à un gène, le fichier donnant les séquences des oligonucléotides des spots a été téléchargé depuis le site d'Affymetrix (le fabricant du microarray). Pour chaque spot, donc à partir des séquences d'oligonucléotides lui correspondant, un blast nucléique a été réalisé sur le génome afin d'identifier quelles étaient les régions complémentaires. Dans le cas où tous les oligonucléotides d'un spot ne pouvaient s'hybrider qu'avec un seul gène, l'association a été effectuée. Le résultat vous est fourni dans le fichier suivant :
 +
 
 +
[[File:EcolA.GPL3154.rma.cgdb.txt]]
 +
 
* Pour la validation : Réseau de référence
* Pour la validation : Réseau de référence

Revision as of 20:21, 6 February 2013

Au cours de ce TD, nous allons utiliser une librairie (minet) faisant partie de la suite Bioconductor afin d'inférer un réseau de régulation à partir de données d'expression.

Une fois le réseau reconstruit, il s'agira d'évaluer sa qualité.

Ensuite, on pourra également visualiser le réseau obtenu avec Cytoscape par exemple.

Principe

  • Calcul d'une matrice d'information mutuelle (ou de corrélations) entre chaque paire de profils d'expression
    • pour cela plusieurs estimateurs sont disponibles et utilisent des données nominales. Il faudra donc effectuer une discrétisation au préalable.
  • Inférence du réseau
    • méthodes : CLR, ARACNe, et MRNET
  • Evaluation du réseau obtenu par rapport à un jeu de référence
    • courbes Precision-Recall et ROC
  • Choix d'un seuil, extraction du graphe obtenu et visualisation sous Cytoscape
  • Partitionnement du réseau et recherche de fonctions biologiques sur-représentées au sein des clusters

Données

  • Pour l'inférence : Compendium de données d'expression

L'idée est de récupérer des données d'expression depuis GEO sur l'organisme qui nous intéresse. Ici, on prendra Escherichia coli. Un certain nombre de design de microarray (GPLxxx) sont disponibles. Ceux arborant le plus d'hybridations (GSMxxx) sont GPL199 (52 séries GSExxx et 938 hybridations GSMxxx au 6 février 2013) et GPL3154 (121 séries et 956 hybridations au 6 février 2013 également).

Après avoir choisi d'utiliser GPL3154, les informations sur les 121 séries ont été étudiées pour sélectionner les plus pertinentes (en fonction de la souche dont proviennent les ARNm extraits, des conditions expérimentales, etc.). Au total, cela fait un peu plus de 800 hybridations. Le fichier GPL et les fichiers GSM ont été téléchargés. Les données ont ensuite été normalisées de manière à pouvoir comparer le niveau d'expression d'un gène dans une condition par rapport à son niveau d'expression dans une autre condition (cf. M1_MABS_TDB_TD_Transcriptome_-_Clustering ici pour la procédure de chargement et de normalisation des données). Après normalisation, les données ont été prétraités afin d'avoir une matrice gènes-conditions. Pour d'associer un identifiant de spot/probeset à un gène, le fichier donnant les séquences des oligonucléotides des spots a été téléchargé depuis le site d'Affymetrix (le fabricant du microarray). Pour chaque spot, donc à partir des séquences d'oligonucléotides lui correspondant, un blast nucléique a été réalisé sur le génome afin d'identifier quelles étaient les régions complémentaires. Dans le cas où tous les oligonucléotides d'un spot ne pouvaient s'hybrider qu'avec un seul gène, l'association a été effectuée. Le résultat vous est fourni dans le fichier suivant :

File:EcolA.GPL3154.rma.cgdb.txt


  • Pour la validation : Réseau de référence


Librairie R

  • Installer la librairie minet de Bioconductor