silico.biotoul.fr
 

M2BBS Integration de Donnes Heterogenes - Projets

From silico.biotoul.fr

Revision as of 14:14, 2 October 2015 by Barriot (Talk | contribs)
Jump to: navigation, search

Projets 2015-16

Le projet consiste à :

  1. ajouter des fonctionnalités au script Search_enriched_sets.py vu en TP
  2. sélectionner un organisme pour ensuite constituer des banques d'ensembles de référence (GO, mots-clés, ...)
  3. développer une méthode pour calculer le contenu en information associé à une annotation
  4. est-ce que, d'une manière générale, les protéines annotées avec un même mot clé sont connectées dans le graphe de STRINGdb ?

à compléter

Le projet est à réaliser par groupe de 4. Le rapport au format électronique est à rendre avant les vacances de fin d'année.

1. Ajout de fonctionnalités à Search_enriched_sets.py

Notation : On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (génome). Ils ont respectivement des cardinalités q, t, g.

Il s'agit de proposer d'autres mesures de similarités. La première est naïve (pas statistique) que l'on nommera overlap ou coverage consiste à considérer quelles fractions des 2 ensembles se correspondent (0 pour aucun élément en commun, 1 pour 2 ensembles identiques). Il s'agit donc de multiplier c/q par c/t avec c le nombre d'éléments communs aux ensembles Q et T respectivement de cardinalités q et t.

La deuxième mesure à ajouter est un χ2 d'indépendance en considérant les ensembles Q et T comme 2 variables qualitatives. Le test est donc à effectuer sur la table de contingence :

T G \ T Σ
Q c q - c q
G \ Q t-c g - c g - q
Σ t g - t g


2. Constitution d'ensembles de références

Sélectionnez tout d'abord un organisme (sur la base de vos intérêts par exemple). Il sera néanmoins plus aisé de constituer des jeux de données concernant un organisme bien étudié (homme, souris, levure, arabette, colibacille, ...) car davantage de données devraient être disponibles. Chaque groupe doit travailler sur un organisme différent.

Ensuite, générez différentes banques d'ensembles à partir de différents critères de regroupement. Il faudra notamment générer les ensembles formés par

  • les mots-clés présents sur les fiches UniProt,
  • les termes de la Gene Ontology. Il faudra inclure uniquement les termes pertinents, c'est-à-dire non redondant. Par exemple, si on obtient le même ensemble pour un terme T22 et un terme T2 moins spécifique que T22, alors seulement l'ensemble correspondant au terme T22 sera généré (le plus spécifique).
  • les voies métaboliques provenant au choix de KEGG, BioCyc,
  • les identifiants PubMed : pour chaque publication portant sur l'organisme choisi, il s'agit d'extraire l'ensemble de gènes ou protéines concernés.
  • plus une source de données de votre choix, c'est-à-dire que vous trouvez pertinente, et qui sera spécifique de l'organisme choisi.