silico.biotoul.fr
 

M2BBS Integration de Donnes Heterogenes - Projets

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m
m (Projets 2016-17)
Line 1: Line 1:
= Projets 2016-17 =
= Projets 2016-17 =
-
En cours de réflexion : Au choix entre celui de l'an dernier et une mise en oeuvre avec Neo4j.
+
* '''Toujours en cours d'élaboration.'''
-
A priori, 3 groupes (4, 3, 3)
+
 
 +
* Groupes : A priori, 3 groupes (4, 3, 3)
 +
 
 +
A coup sûr :
 +
* Partie 1 de celui de l'an dernier = ajout du test du chi2 à serach_enriched_sets.py
 +
 
 +
Ebauche : questions posées
 +
* pré-requis : choix d'un organisme (parmi ..?)
 +
* est-ce que les gènes orthologues chez ''E. coli'' K12 MG1655 des gènes co-exprimés dans l'organisme choisi sont aussi co-exprimés ?
 +
* est-ce qu'ils forment un opéron ''chez E. coli'' ?
 +
* en plus ?
 +
** vaut-il mieux utiliser les orthologues fournis par String ou Roland ?
 +
** associer une ou des annotations aux groupes de gènes co-exprimés
= Projets 2015-16 =
= Projets 2015-16 =

Revision as of 08:08, 21 September 2016

Contents

Projets 2016-17

  • Toujours en cours d'élaboration.
  • Groupes : A priori, 3 groupes (4, 3, 3)

A coup sûr :

  • Partie 1 de celui de l'an dernier = ajout du test du chi2 à serach_enriched_sets.py

Ebauche : questions posées

  • pré-requis : choix d'un organisme (parmi ..?)
  • est-ce que les gènes orthologues chez E. coli K12 MG1655 des gènes co-exprimés dans l'organisme choisi sont aussi co-exprimés ?
  • est-ce qu'ils forment un opéron chez E. coli ?
  • en plus ?
    • vaut-il mieux utiliser les orthologues fournis par String ou Roland ?
    • associer une ou des annotations aux groupes de gènes co-exprimés

Projets 2015-16

Le projet consiste à :

  1. ajouter des fonctionnalités au script Search_enriched_sets.py vu en TP
  2. sélectionner un organisme pour ensuite constituer des banques d'ensembles de référence (GO, mots-clés, ...)
  3. développer une méthode pour calculer le contenu en information associé à une annotation
  4. est-ce que, d'une manière générale, les protéines annotées avec un même mot clé sont connectées dans le graphe de STRINGdb ?

à compléter

Le projet est à réaliser par groupe de 4. Le rapport au format électronique est à rendre avant les vacances de fin d'année.

Partie 1. Ajout de fonctionnalités à Search_enriched_sets.py

Notation : On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (génome). Ils ont respectivement des cardinalités q, t, g.

Il s'agit de proposer d'autres mesures de similarités. La première est naïve (pas statistique) que l'on nommera overlap ou coverage consiste à considérer quelles fractions des 2 ensembles se correspondent (0 pour aucun élément en commun, 1 pour 2 ensembles identiques). Il s'agit donc de multiplier c/q par c/t avec c le nombre d'éléments communs aux ensembles Q et T respectivement de cardinalités q et t.

La deuxième mesure à ajouter est un χ2 d'indépendance en considérant les ensembles Q et T comme 2 variables qualitatives. Le test est donc à effectuer sur la table de contingence :

T G \ T Σ
Q c q - c q
G \ Q t-c g -q - t + c g - q
Σ t g - t g

Partie 2. Constitution d'ensembles de références

Sélectionnez tout d'abord un organisme (sur la base de vos intérêts par exemple). Il sera néanmoins plus aisé de constituer des jeux de données concernant un organisme bien étudié (homme, souris, levure, arabette, colibacille, ...) car davantage de données devraient être disponibles. Chaque groupe doit travailler sur un organisme différent.

Ensuite, générez différentes banques d'ensembles à partir de différents critères de regroupement. Il faudra notamment générer les ensembles formés par

  • les mots-clés présents sur les fiches UniProt,
  • les termes de la Gene Ontology. Il faudra inclure uniquement les termes pertinents, c'est-à-dire non redondant. Par exemple, si on obtient le même ensemble pour un terme T22 et un terme T2 moins spécifique que T22, alors seulement l'ensemble correspondant au terme T22 sera généré (le plus spécifique).
  • les voies métaboliques provenant au choix de KEGG, BioCyc,
  • les identifiants PubMed : pour chaque publication portant sur l'organisme choisi, il s'agit d'extraire l'ensemble de gènes ou protéines concernés.
  • plus une source de données de votre choix, c'est-à-dire que vous trouvez pertinente, et qui sera spécifique de l'organisme choisi.

Partie 3. Contenu en information

Pour cette partie, il s'agit de mettre en oeuvre le concept de contenu en information (information content ou IC dans la suite) abordé en cours. Sa formule est la suivante :

IC(term) = − log(p(term)) avec p(term) = freq(term)

Ecrire un programme qui, à partir d'une banque de données d'ensembles de références, les affiche par IC décroissant (en affichant également l'IC associé à l'ensemble).

Ajouter cette fonctionnalité au script Search_enriched_sets.py, c'est-à-dire qu'en plus de la p-valeur ou du score d'un ensemble cible, il faudra également afficher l'IC de l'ensemble sur la sortie du programme.

Partie 4. Analyse

Est-ce que, d'une manière générale, les protéines annotées avec un même mot clé sont connectées dans le graphe de STRINGdb ?

Livrables

Le rapport de projet au format PDF doit contenir les points suivants :

  • Partie 1. Des explications sur les modifications apportées au script original. Comment utiliser le script modifié. Un exemple d'utilisation des fonctionnalités ajoutées.
  • Partie 2. Description des données. Données sources utilisées. Transformations effectuées.
  • Partie 3. Un exemple d'utilisation du programme réalisé.
  • Partie 4. Conception et mise en oeuvre de la méthode développée pour répondre à la question posée.
  • Bilan et perspectives. Conclusion et perspectives. Difficultés rencontrées, suggestions sur d'autres approches, d'autres sources de données à exploiter.
  • Répartition des tâches. Description de la part de l'apport de chacun des membres du groupe au projet : bien que chacun devrait participer à toutes les étapes, ce projet peut se décomposer en sous-étapes dont chacune réalisée plus particulièrement par l'un des membres du groupe.

Le tout sera envoyé ou mis à disposition avant le 21 décembre 2015 sous forme d'archive contenant le rapport, les jeu de données, les scripts et programmes réalisés.