M2BBS Integration de Donnes Heterogenes - Projets
From silico.biotoul.fr
m (→Projets 2016-17) |
m |
||
Line 27: | Line 27: | ||
** annotation automatique de groupes de gènes | ** annotation automatique de groupes de gènes | ||
- | == Partie 1. Ajout de fonctionnalités à Search_enriched_sets.py == | + | == Partie 1 : enrichissement. Ajout de fonctionnalités à Search_enriched_sets.py == |
'''Notation :''' On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (génome). Ils ont respectivement des cardinalités q, t, g. | '''Notation :''' On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (génome). Ils ont respectivement des cardinalités q, t, g. | ||
Line 45: | Line 45: | ||
|} | |} | ||
+ | |||
+ | == Livrables == | ||
+ | |||
+ | Le rapport de projet au format PDF doit contenir les points suivants : | ||
+ | * Partie 1 : enrichissement. Des explications sur les modifications apportées au script original. Comment utiliser le script modifié. Un exemple d'utilisation des fonctionnalités ajoutées. | ||
+ | |||
+ | Le tout sera envoyé ou mis à disposition '''avant le 21 décembre 2015''' sous forme d'archive contenant le rapport, les jeu de données, les scripts et programmes réalisés. | ||
+ | |||
+ | |||
+ | <!-- | ||
= Projets 2015-16 = | = Projets 2015-16 = | ||
Le projet consiste à : | Le projet consiste à : | ||
Line 110: | Line 120: | ||
Le tout sera envoyé ou mis à disposition '''avant le 21 décembre 2015''' sous forme d'archive contenant le rapport, les jeu de données, les scripts et programmes réalisés. | Le tout sera envoyé ou mis à disposition '''avant le 21 décembre 2015''' sous forme d'archive contenant le rapport, les jeu de données, les scripts et programmes réalisés. | ||
- | + | --> | |
Revision as of 11:31, 27 September 2016
Projets 2016-17
- Toujours en cours d'élaboration.
- Groupes : A priori, 3 groupes (4, 3, 3)
A coup sûr :
- Partie 1 de celui de l'an dernier = ajout du test du chi2 à serach_enriched_sets.py
Ebauche : questions posées
- pré-requis : choix d'un organisme (parmi ..?)
- est-ce que les gènes orthologues chez E. coli K12 MG1655 des gènes co-exprimés dans l'organisme choisi sont aussi co-exprimés ?
- est-ce qu'ils forment un opéron chez E. coli ?
- en plus ?
- vaut-il mieux utiliser les orthologues fournis par String ou Roland ?
- associer une ou des annotations aux groupes de gènes co-exprimés
Etapes clés :
- détermination des gènes co-exprimés
- identification des gènes orthologues 1:1 chez E. coli
- détermination des opérons chez E. coli
- constitution de la base de données (de type graph database)
- correspondance des groupes de gènes co-exprimés chez l'organisme choisi et E. coli
- correspondance avec les opérons de E. coli
- en plus ?
- mise en oeuvre avec d'autres méthodes pour l'identification des gènes co-exprimés et des orthologues, et comparaison des résultats
- annotation automatique de groupes de gènes
Partie 1 : enrichissement. Ajout de fonctionnalités à Search_enriched_sets.py
Notation : On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (génome). Ils ont respectivement des cardinalités q, t, g.
Il s'agit de proposer d'autres mesures de similarités. La première est naïve (pas statistique) que l'on nommera overlap ou coverage et consiste à considérer quelles fractions des 2 ensembles se correspondent (0 pour aucun élément en commun, 1 pour 2 ensembles identiques). Il s'agit donc de multiplier c/q par c/t avec c le nombre d'éléments communs aux ensembles Q et T respectivement de cardinalités q et t.
La deuxième mesure à ajouter est un χ2 d'indépendance en considérant les ensembles Q et T comme 2 variables qualitatives. Le test est donc à effectuer sur la table de contingence :
T | G \ T | Σ | |
Q | c | q - c | q |
G \ Q | t-c | g -q - t + c | g - q |
Σ | t | g - t | g |
Livrables
Le rapport de projet au format PDF doit contenir les points suivants :
- Partie 1 : enrichissement. Des explications sur les modifications apportées au script original. Comment utiliser le script modifié. Un exemple d'utilisation des fonctionnalités ajoutées.
Le tout sera envoyé ou mis à disposition avant le 21 décembre 2015 sous forme d'archive contenant le rapport, les jeu de données, les scripts et programmes réalisés.