silico.biotoul.fr
 

M2BBS Integration de Donnes Heterogenes - Projets

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Intégration et préparation des données)
m (Partie 2 collective : Intégration et exploitation de données hétérogènes dans un modèle graphique)
Line 147: Line 147:
* Les organismes choisis par les différents groupes doivent être différents (premier arrivé = premier servi).
* Les organismes choisis par les différents groupes doivent être différents (premier arrivé = premier servi).
* Utilisation de Neo4j pour la représentation sous forme de graphe des données intégrées (expression, orthologie, annotation, ...).
* Utilisation de Neo4j pour la représentation sous forme de graphe des données intégrées (expression, orthologie, annotation, ...).
 +
 +
Groupes et organismes
 +
{| class="wikitable"
 +
|-
 +
| Organisme 1 || Organisme 2 || Organisme 3 || Organisme 4
 +
|-
 +
| A. Guillaume
 +
B. Allan 
 +
 +
H. Fadoua
 +
 +
| A. Ségolène
 +
G. Fanny
 +
 +
T. Anna
 +
 +
V. Anaïs
 +
 +
| C. Eva
 +
N. Delphine
 +
 +
R. Flavien
 +
 +
| F. Michelle
 +
N. Hoang
 +
 +
T. Robel
 +
 +
V. Caroline
 +
 +
| D. S. Kathy
 +
L. Emilien
 +
 +
T. Abdel
 +
|}
 +
=== Rapport à rendre ===
=== Rapport à rendre ===

Revision as of 07:31, 22 September 2017

Contents

Projets 2017-18

Les projets, cette année, s'organisent en 2 parties :

  • la partie 1 est individuelle c'est-à-dire que chacun doit la faire et fournir un rapport.
  • la partie 2 est à faire en groupes.

5 Groupes sont à former : 4, 4, 3, 3 et 3 personnes.

Partie 1 Individuelle : enrichissement

Intégration et préparation des données

Outline:

  • choisir un organisme. Le même organisme ne peut pas être pris par plusieurs personnes. La liste des choix attribués (premier arrivé, premier servi) sera disponible en fin de cette section.
  • fournir un script permettant d'obtenir à partir du graphe de la Gene Ontology et des associations 2 fichiers :
    • le premier fournit les associations directes : la liste des gènes annotés directement par un même terme
    • le second fournit les associations implicites : la listes des gènes annotés par un même terme ou un de ses descendants
  • choisir l'organisme de quelqu'un d'autre (là aussi, ne pas prendre plusieurs fois le même), afin de vérifier que le script précédent fonctionne bien sur un autre organisme.
  • utiliser le script sur les 2 organismes et faire une synthèse (nombre de gènes annotés sur le génome, nombre de termes par gène, nombre de gènes par terme, ...)

Organismes choisis :

Organisme choisi Autre organisme
A. Guillaume Sus scrofa Rattus norvegicus
A. Ségolène Escherichia coli Gallus gallus
B. Allan Candida albicans Sus scrofa
C. Eva Canis lupus familiaris Aspergillus nidulans
D-S. Kathy Dickeya dadantii Bos taurus
F. Michèle Pseudomonas aeruginosa PAO1 Plasmodium falciparum
G. Fanny Mus musculus Agrobacterium tumefaciens
H. Fadoua Rattus norvegicus Candida albicans
L. Emilien Oriza sativa Arabidopsis thaliana
N. Delphine Aspergillus nidulans Canis lupus familiaris
N. Hoang Leishmania major Solanacea pas d'espèce particulière ? redondance avec Abdel ?
R. Flavien Drosophila melanogaster Dickeya dadantii'
T. Robel Plasmodium falciparum Leishmania major
T. Anna Agrobacterium tumefaciens Mus musculus
T. Abdel Bos taurus Solanasea pb d'orthographe ? si Solanacea, génome choisi aussi par Hoang
V. Anaïs Gallus gallus E. coli
V. Caroline Solanacea pas d'espèce particulière ? Pseudomonas aeruginosa PAO1

Ajout de fonctionnalités à search_enriched_sets.py

Notation : On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (génome). Ils ont respectivement des cardinalités q, t, g.

Il s'agit de proposer d'autres mesures de similarités. La première est naïve (pas statistique) que l'on nommera overlap ou coverage et consiste à considérer quelles fractions des 2 ensembles se correspondent (0 pour aucun élément en commun, 1 pour 2 ensembles identiques). Il s'agit donc de multiplier c/q par c/t avec c le nombre d'éléments communs aux ensembles Q et T respectivement de cardinalités q et t.

La deuxième mesure à ajouter est un χ2 d'indépendance en considérant les ensembles Q et T comme 2 variables qualitatives. Le test est donc à effectuer sur la table de contingence :

T G \ T Σ
Q c q - c q
G \ Q t - c g - q - t + c g - q
Σ t g - t g

Comparaison des mesures ajoutées

Proposez une approche et comparez les différentes mesures intégrées au script. Laquelle est-il préférable d'utiliser ?

Rapport à rendre

Un rapport succinct (quelques pages) est demandé. L'objectif est de fournir plutôt un rapport technique sur la réalisation de cette partie. Il doit donc être complet, pertinent, ciblé (qui est le lecteur ?), scientifique et rigoureux.

Il doit inclure

  • une brève introduction générale décrivant le contexte, les objectifs et le plan de ce qui suit.
  • ajout de fonctionnalités :
    • des explications sur les modifications apportées au script original,
    • comment utiliser le script modifié,
    • un exemple d'utilisation des fonctionnalités ajoutées.
  • comparaison des mesures intégrées :
    • approches envisagées et méthode pour en sélectionner une
    • mise en oeuvre
    • synthèse des résultats obtenus
    • bilan : quelle mesure utiliser de préférence, pourquoi
    • perspectives d'amélioration
  • bilan personnel sur cette partie du projet et sur cette UE : motivations ? critiques ? suggestions ? apports ? ... ?

Contraintes :

  • Le rapport doit être au format PDF.
  • Le rapport peut être en anglais ou en français mais pas les 2.
  • Le script modifié et les éventuels jeux de tests utilisés et résultats obtenus doivent être fournis ou disponibles sous forme d'archive.

Partie 2 collective : Intégration et exploitation de données hétérogènes dans un modèle graphique

Le but de cette partie est de mettre en oeuvre certains principes vus jusqu'ici afin de répondre à une question biologique : les gènes co-régulés chez un organisme donné le sont-ils aussi chez Escherichia coli K-12 MG1655 ?

Afin d'y répondre, il faudra choisir un organisme, déterminer les gènes co-régulés dans les 2 génomes ainsi que la correspondance des gènes entre les 2 génomes.

La co-régulation des gènes peut se trouver dans la littérature et les bases de données mais les connaissances actuelles ne sont pas complètes. Pour pallier ce manque, on pourra choisir de faire une prédiction de la co-régulation avec une approximation : il s'agit de supposer que les gènes co-exprimés sont co-régulés. Pour déterminer les gènes co-exprimés chez un organisme, on se base généralement sur un compendium de données d'expression comprenant suffisamment de conditions expérimentales différentes. A partir des profils d'expression des gènes dans toutes ces conditions, on applique une méthode de clustering pour identifier les ensembles de gènes co-exprimés. Il est bien sûr aussi possible d'utiliser une base de données de référence, si elle existe, ou bien une base de données contenant des scores de co-expression entre les paires de gènes de l'organisme étudié.

La correspondance des gènes entre les 2 génomes peut là aussi, bien sûr, si elle existe être établie à partir d'une base de données de référence, ou bien être calculée selon une méthode d'identification des gènes orthologues 1:1.

Objectifs et problématiques :

  • choix d'un organisme
  • les gènes orthologues chez E. coli K-12 MG1655 des gènes co-exprimés dans l'organisme choisi sont-ils aussi co-exprimés ?
  • quel est le groupe de gènes le mieux conservé (en termes d'orthologie, de co-expression, et d'annotation) ?
  • bonus (à réaliser si vous le souhaitez)
    • les ensemble de gènes conservés en co-expression forment-ils un opéron chez E. coli ?
    • vaut-il mieux utiliser les orthologues fournis par String ou Roland B. ?
    • associer une ou des annotations aux groupes de gènes co-exprimés

Etapes clés :

  • détermination des gènes co-exprimés
  • identification des gènes orthologues 1:1 chez E. coli
  • constitution des jeux de données (de type graph database)
  • correspondance des groupes de gènes co-exprimés chez l'organisme choisi et E. coli
  • bonus
    • détermination des opérons chez E. coli
    • correspondance avec les opérons de E. coli
    • mise en oeuvre avec d'autres méthodes pour l'identification des gènes co-exprimés et des orthologues, et comparaison des résultats
    • annotation automatique de groupes de gènes

Contraintes :

  • Les organismes choisis par les différents groupes doivent être différents (premier arrivé = premier servi).
  • Utilisation de Neo4j pour la représentation sous forme de graphe des données intégrées (expression, orthologie, annotation, ...).

Groupes et organismes

Organisme 1 Organisme 2 Organisme 3 Organisme 4
A. Guillaume

B. Allan

H. Fadoua

A. Ségolène

G. Fanny

T. Anna

V. Anaïs

C. Eva

N. Delphine

R. Flavien

F. Michelle

N. Hoang

T. Robel

V. Caroline

D. S. Kathy

L. Emilien

T. Abdel


Rapport à rendre

Là aussi, un rapport succinct est demandé. L'objectif est de fournir des informations sur la réalisation de cette partie et les choix effectués pour y arriver. Il doit donc être complet, pertinent, scientifique et rigoureux.

Il doit inclure

  • une brève introduction générale décrivant le contexte, les objectifs et le plan de ce qui suit.
  • Analyse et conception
    • choix de l'organisme
    • méthode(s) pour la sélection des données utilisées
    • méthode(s) pour l'identification des gènes co-régulés
    • methode(s) utilisée pour l'identification des gènes orthologues
  • Réalisation
    • environnement de travail, constitution des données utilisées (modèle graph database), paramétrages des méthodes utilisées, logiciels et banques utilisés
    • résultats
  • Bilan et perspectives
    • synthèses et conclusions sur l'étude demandée
    • perspectives d'amélioration de ce type d'étude, pistes d'analyses qu'elle ouvre (sur l'organisme sélectionné, ou plus généralement)
  • Bilan du groupe sur cette partie du projet
    • part de chacun dans les différents aspects du travail effectué
    • difficultés rencontrées
    • avis sur les bases de données de types graph database

Contraintes :

  • Le rapport doit être au format PDF.
  • Le rapport peut être en anglais ou en français mais pas les 2.
  • Les scripts et programmes développés et les éventuels jeux de tests utilisés et résultats obtenus doivent être fournis ou disponibles sous forme d'archive.

Présentation

La présentation orale se fera par groupe. La durée de la présentation ne doit pas dépasser 20 minutes. Elle sera suivie de questions, commentaires et d'une discussion.

La présentation sera sur le thème d'une présentation interne à une équipe ou un institut, c'est-à-dire que le public connaît les enjeux. Elle portera plus sur les choix des méthodes et leur réalisation ainsi que sur la discussion sur les résultats obtenus.

Calendrier

Partie 1 individuelle : Le rapport individuel et l'archive associée sont à remettre par voie électronique avant le 6 octobre 2017.

Partie 2 collective, les dates indiquées sont les dates limites exclues (par exemple l'information sur la composition des groupes doit parvenir avant le 23/09, donc vous avez jusqu'au 22)

  • 23/09 détermination des groupes (et information transmise à RB)
  • 30/09 choix d'un organisme (et information transmise à RB)

Le rapport collectif est à remettre par voie électronique avant le 17/10.