silico.biotoul.fr
 

M2BBS Integration de Donnes Heterogenes - Projets

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Calendrier)
m (Partie 2 collective : Intégration et exploitation de données hétérogènes dans un modèle graphique)
Line 86: Line 86:
-
 
+
Contraintes :
-
 
+
* Les organismes choisis par les différents groupes doivent être différents (premier arrivé = premier servi).
 +
* Utilisation de Neo4j pour le modèle graphique
== Calendrier ==
== Calendrier ==

Revision as of 10:41, 28 September 2016

Contents

Projets 2016-17

Les projets, cette année, s'organisent en 2 parties :

  • la partie 1 est individuelle c'est-à-dire que chacun doit la faire et fournir un rapport.
  • la partie 2 est à faire en groupes.

3 Groupes sont à former : 4, 3, et 3 personnes.

Partie 1 Individuelle : enrichissement

Ajout de fonctionnalités à search_enriched_sets.py

Notation : On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (génome). Ils ont respectivement des cardinalités q, t, g.

Il s'agit de proposer d'autres mesures de similarités. La première est naïve (pas statistique) que l'on nommera overlap ou coverage et consiste à considérer quelles fractions des 2 ensembles se correspondent (0 pour aucun élément en commun, 1 pour 2 ensembles identiques). Il s'agit donc de multiplier c/q par c/t avec c le nombre d'éléments communs aux ensembles Q et T respectivement de cardinalités q et t.

La deuxième mesure à ajouter est un χ2 d'indépendance en considérant les ensembles Q et T comme 2 variables qualitatives. Le test est donc à effectuer sur la table de contingence :

T G \ T Σ
Q c q - c q
G \ Q t - c g - q - t + c g - q
Σ t g - t g

Comparaison des mesures ajoutées

Proposez une approche et comparez les différentes mesures intégrées au script. Laquelle est-il préférable d'utiliser ?

Rapport à rendre

Un rapport succinct (quelques pages) est demandé. L'objectif est de fournir plutôt un rapport technique sur la réalisation de cette partie. Il doit donc être complet, pertinent, ciblé (qui est le lecteur ?), scientifique et rigoureux.

Il doit inclure

  • une brève introduction générale décrivant le contexte, les objectifs et le plan de ce qui suit.
  • ajout de fonctionnalités :
    • des explications sur les modifications apportées au script original,
    • comment utiliser le script modifié,
    • un exemple d'utilisation des fonctionnalités ajoutées.
  • comparaison des mesures intégrées :
    • approches envisagées et méthode pour en sélectionner une
    • mise en oeuvre
    • synthèse des résultats obtenus
    • bilan : quelle mesure utiliser de préférence, pourquoi
    • perspectives d'amélioration
  • bilan personnel sur cette partie du projet et sur cette UE : motivations ? critiques ? suggestions ? apports ? ... ?

Contraintes :

  • Le rapport doit être au format PDF.
  • Le rapport peut être en anglais ou en français mais pas les 2.
  • Le script modifié et les éventuels jeux de tests utilisés et résultats obtenus doivent être fournis ou disponibles sous forme d'archive.

Partie 2 collective : Intégration et exploitation de données hétérogènes dans un modèle graphique

Toujours en cours d'élaboration.


Ebauche : questions posées

  • pré-requis : choix d'un organisme (parmi ..?)
  • les gènes orthologues chez E. coli K12 MG1655 des gènes co-exprimés dans l'organisme choisi sont-ils aussi co-exprimés ?
  • quel est le groupe de gènes le mieux conservé (en termes d'othologie, de co-expression, et d'annotation) ?
  • en plus ?
    • les conservés en co-expression forment-ils un opéron chez E. coli ?
    • vaut-il mieux utiliser les orthologues fournis par String ou Roland B. ?
    • associer une ou des annotations aux groupes de gènes co-exprimés

Etapes clés :

  • détermination des gènes co-exprimés
  • identification des gènes orthologues 1:1 chez E. coli
  • constitution de la base de données (de type graph database)
  • correspondance des groupes de gènes co-exprimés chez l'organisme choisi et E. coli
  • en plus ?
    • détermination des opérons chez E. coli
    • correspondance avec les opérons de E. coli
    • mise en oeuvre avec d'autres méthodes pour l'identification des gènes co-exprimés et des orthologues, et comparaison des résultats
    • annotation automatique de groupes de gènes


Contraintes :

  • Les organismes choisis par les différents groupes doivent être différents (premier arrivé = premier servi).
  • Utilisation de Neo4j pour le modèle graphique

Calendrier

Partie 1 individuelle : Le rapport individuel et l'archive associée sont à remettre par voie électronique avant le 17 octobre 2016.

Partie 2 collective, les dates indiquées sont les dates limites exclues (par exemple l'information sur la composition des groupes doit parvenir avant le 3/10, donc vous avez jusqu'au 2)

  • 3/10 détermination des groupes (et information transmise à RB)
  • 10/10 choix d'un organisme (et information transmise à RB)

Le rapport collectif est à remettre par voie électronique 1 semaine avant la présentation.