silico.biotoul.fr
 

M2BBS - IDH

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Données)
m (Modélisation, représentation et construction d'une base de connaissances sur E. coli puis exploitation)
 
(129 intermediate revisions not shown)
Line 1: Line 1:
-
= BioMart =
+
= Introduction et présentation des différentes approches d'intégration =
-
== Premier pas ==
+
Durée : 1/2 journée
-
* Allez sur le site de l'EBI, puis sur BioMart pour récupérer les entrées du dataset ''Ensembl bacteria 14'' d'Escherichia coli K-12.
+
-
* Essayer différents filtres (ayant des termes GO, ou autre).
+
-
* Sélectionner certains attributs.
+
-
* Utiliser la fonctionnalité ''count'' puis ''results''.
+
-
== Installation locale ==
+
* [[Media:M2BBS - Integration de Donnees Heterogenes - Generalites.pdf|Approches]] et généralités
-
* Aller sur le site de BioMart pour récupérer la dernière version.
+
-
* Suivre le manuel utilisateur : Quick start pour mettre à disposition un jeu de données distant depuis votre serveur.
+
-
== Ajout de sources locales et édition de liens ==
+
* Analyses préliminaires sur les données d'''E. coli'' : [https://silico.biotoul.fr/enseignement/m2bbs/idh/ppi.vs.coexp.html ppi.vs.coexp.html]
-
* Télécharger le jeu de données ''gene'' (à la fin de cette page).
+
-
* Créer une base de données MySql pour héberger les tables gene et strain, avec le schéma suivant :
+
-
** gene(strain, gene, num, protein, start, end, function, uniprot)
+
-
** strain(strain, taxonomy_id, name, species)
+
-
* Alimenter ces tables avec les données téléchargées
+
-
* Ajouter le dataset ''gene'' à votre serveur BioMart et créer un ''Access point'' correspondant
+
-
* Ajouter un lien entre ''gene'' et ''strain''
+
-
* Ajouter un lien entre ''gene.uniprot'' et le jeu de données distant ''unimart''
+
-
== Services Web ==
+
= Modélisation, représentation et construction d'une base de connaissances sur ''E. coli'' puis exploitation =
-
* Suivre l'exemple donné dans la documentation pour effectuer une requête sur votre instance BioMart afin de récupérer un jeu de données depuis un script python ou perl
+
-
== Autres sources de données ==
+
Durée : 1 journée
-
* Répartissez-vous le reste des données disponibles en fin de page (sauf BioCyc, donc GO, profils phylogénétiques, String, et transcriptome) pour créer les tables correspondantes, faire le lien avec ''gene'' sur le type de données que vous aurez choisi, puis faire le lien avec les types de données hébergés par les instances de vos collègues.
+
-
= Confrontation des données : approche ensembliste =
+
* [[Media:M2BBS - Integration de Donnees Heterogenes - NoSQL.pdf|Masses de données non structurées]]
-
= Priorisation =
+
* Prise en main de Neo4j et intégration des données sur le génome d'''E. coli'' : [https://silico.biotoul.fr/enseignement/m2bbs/idh/Ecoli.knowledge.base.html Ecoli.knowledge.base.html]
 +
** Intégration de données d'expression
 +
** Intégration de données d'interaction protéine-protéine
 +
** Intégration de données phylogénomiques
 +
** Gènes co-exprimés et interactions protéiques et lien de conservation du contexte génomique
-
= Données et scripts =
+
* [[Media:M2BBS - Integration de Donnees Heterogenes - Enrichissement.pdf|Recherche de caractéristiques sur-représentées]]
-
* [[Media:M2BBS-IDH-gene.tar.bz2]]
+
** Intégration de données d'annotation et recherche d'annotations sur-représentées chez les gènes/protéines partageant un lien de coexpression/interaction/phylogénomique
-
* [[Media:M2BBS-IDH-go.tar.bz2]]
+
-
* [[Media:M2BBS-IDH-phyogenetic_profiles.tar.bz2]]
+
-
* [[Media:M2BBS-IDH-string.tar.bz2]]
+
-
* [[Media:M2BBS-IDH-transcriptome.BsubA.tar.bz2]]
+
-
* [[Media:M2BBS-IDH-transcriptome.EcolA.tar.bz2]]
+
-
* [[Media:M2BBS-IDH-transcriptome.PaerA.tar.bz2]]
+
-
* [[Media:M2BBS-IDH-biocyc.tar.bz2]]
+
-
 
+
-
 
+
-
* [[Media:M2BBS-IDH-DBConnection.pm]]
+

Current revision as of 15:07, 27 August 2021

Introduction et présentation des différentes approches d'intégration

Durée : 1/2 journée

Modélisation, représentation et construction d'une base de connaissances sur E. coli puis exploitation

Durée : 1 journée

  • Prise en main de Neo4j et intégration des données sur le génome d'E. coli : Ecoli.knowledge.base.html
    • Intégration de données d'expression
    • Intégration de données d'interaction protéine-protéine
    • Intégration de données phylogénomiques
    • Gènes co-exprimés et interactions protéiques et lien de conservation du contexte génomique