silico.biotoul.fr
 

M2BBS Integration de Donnes Heterogenes - Projets

From silico.biotoul.fr

Revision as of 11:31, 27 September 2016 by Barriot (Talk | contribs)
Jump to: navigation, search

Projets 2016-17

  • Toujours en cours d'élaboration.
  • Groupes : A priori, 3 groupes (4, 3, 3)

A coup sûr :

  • Partie 1 de celui de l'an dernier = ajout du test du chi2 à serach_enriched_sets.py

Ebauche : questions posées

  • pré-requis : choix d'un organisme (parmi ..?)
  • est-ce que les gènes orthologues chez E. coli K12 MG1655 des gènes co-exprimés dans l'organisme choisi sont aussi co-exprimés ?
  • est-ce qu'ils forment un opéron chez E. coli ?
  • en plus ?
    • vaut-il mieux utiliser les orthologues fournis par String ou Roland ?
    • associer une ou des annotations aux groupes de gènes co-exprimés

Etapes clés :

  • détermination des gènes co-exprimés
  • identification des gènes orthologues 1:1 chez E. coli
  • détermination des opérons chez E. coli
  • constitution de la base de données (de type graph database)
  • correspondance des groupes de gènes co-exprimés chez l'organisme choisi et E. coli
  • correspondance avec les opérons de E. coli
  • en plus ?
    • mise en oeuvre avec d'autres méthodes pour l'identification des gènes co-exprimés et des orthologues, et comparaison des résultats
    • annotation automatique de groupes de gènes

Partie 1 : enrichissement. Ajout de fonctionnalités à Search_enriched_sets.py

Notation : On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (génome). Ils ont respectivement des cardinalités q, t, g.

Il s'agit de proposer d'autres mesures de similarités. La première est naïve (pas statistique) que l'on nommera overlap ou coverage et consiste à considérer quelles fractions des 2 ensembles se correspondent (0 pour aucun élément en commun, 1 pour 2 ensembles identiques). Il s'agit donc de multiplier c/q par c/t avec c le nombre d'éléments communs aux ensembles Q et T respectivement de cardinalités q et t.

La deuxième mesure à ajouter est un χ2 d'indépendance en considérant les ensembles Q et T comme 2 variables qualitatives. Le test est donc à effectuer sur la table de contingence :

T G \ T Σ
Q c q - c q
G \ Q t-c g -q - t + c g - q
Σ t g - t g


Livrables

Le rapport de projet au format PDF doit contenir les points suivants :

  • Partie 1 : enrichissement. Des explications sur les modifications apportées au script original. Comment utiliser le script modifié. Un exemple d'utilisation des fonctionnalités ajoutées.

Le tout sera envoyé ou mis à disposition avant le 21 décembre 2015 sous forme d'archive contenant le rapport, les jeu de données, les scripts et programmes réalisés.