silico.biotoul.fr
 

M2BBS Integration de Donnes Heterogenes - Projets

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Projets 2016-17)
m
Line 1: Line 1:
 +
<!-- date des présentaions
 +
Admin link to the poll
 +
https://framadate.org/uNPXqVD7MmdkFlF23xH5aPWE/admin
 +
 +
Public link to the poll
 +
https://framadate.org/uNPXqVD7MmdkFlF2
 +
-->
= Projets 2016-17 =
= Projets 2016-17 =
-
 
-
* '''Toujours en cours d'élaboration.'''
 
Les projets, cette année, s'organisent en 2 parties :
Les projets, cette année, s'organisent en 2 parties :
Line 8: Line 13:
3 Groupes sont à former : 4, 3, et 3 personnes.
3 Groupes sont à former : 4, 3, et 3 personnes.
-
 
-
 
-
A coup sûr :
 
-
* Partie 1 de celui de l'an dernier = ajout du test du chi2 à serach_enriched_sets.py
 
-
 
-
Ebauche : questions posées
 
-
* pré-requis : choix d'un organisme (parmi ..?)
 
-
* les gènes orthologues chez ''E. coli'' K12 MG1655 des gènes co-exprimés dans l'organisme choisi sont-ils aussi co-exprimés ?
 
-
* quel est le groupe de gènes le mieux conservé (en termes d'othologie, de co-expression, et d'annotation) ?
 
-
* en plus ?
 
-
** les conservés en co-expression forment-ils un opéron ''chez E. coli'' ?
 
-
** vaut-il mieux utiliser les orthologues fournis par String ou Roland B. ?
 
-
** associer une ou des annotations aux groupes de gènes co-exprimés
 
-
 
-
Etapes clés :
 
-
* détermination des gènes co-exprimés
 
-
* identification des gènes orthologues 1:1 chez ''E. coli''
 
-
* constitution de la base de données (de type graph database)
 
-
* correspondance des groupes de gènes co-exprimés chez l'organisme choisi et ''E. coli''
 
-
* en plus ?
 
-
** détermination des opérons chez ''E. coli''
 
-
** correspondance avec les opérons de ''E. coli''
 
-
** mise en oeuvre avec d'autres méthodes pour l'identification des gènes co-exprimés et des orthologues, et comparaison des résultats
 
-
** annotation automatique de groupes de gènes
 
== Partie 1 Individuelle : enrichissement  ==
== Partie 1 Individuelle : enrichissement  ==
Line 80: Line 61:
== Partie 2 collective : Intégration et exploitation de données hétérogènes dans un modèle graphique ==
== Partie 2 collective : Intégration et exploitation de données hétérogènes dans un modèle graphique ==
 +
 +
<big>'''Toujours en cours d'élaboration.'''</big>
 +
 +
 +
Ebauche : questions posées
 +
* pré-requis : choix d'un organisme (parmi ..?)
 +
* les gènes orthologues chez ''E. coli'' K12 MG1655 des gènes co-exprimés dans l'organisme choisi sont-ils aussi co-exprimés ?
 +
* quel est le groupe de gènes le mieux conservé (en termes d'othologie, de co-expression, et d'annotation) ?
 +
* en plus ?
 +
** les conservés en co-expression forment-ils un opéron ''chez E. coli'' ?
 +
** vaut-il mieux utiliser les orthologues fournis par String ou Roland B. ?
 +
** associer une ou des annotations aux groupes de gènes co-exprimés
 +
 +
Etapes clés :
 +
* détermination des gènes co-exprimés
 +
* identification des gènes orthologues 1:1 chez ''E. coli''
 +
* constitution de la base de données (de type graph database)
 +
* correspondance des groupes de gènes co-exprimés chez l'organisme choisi et ''E. coli''
 +
* en plus ?
 +
** détermination des opérons chez ''E. coli''
 +
** correspondance avec les opérons de ''E. coli''
 +
** mise en oeuvre avec d'autres méthodes pour l'identification des gènes co-exprimés et des orthologues, et comparaison des résultats
 +
** annotation automatique de groupes de gènes
 +
 +
 +
== Calendrier ==
 +
Le rapport individuel et l'archive associée sont à remettre par voie électronique '''avant le 17 octobre 2016'''.
 +
Le rapport collectif est à remettre par voie électronique '''1 semaine avant la présentation'''.
-
== Calendrier et livrables ==
 
-
Le rapport de projet au format PDF doit contenir les points suivants :
 
-
* Partie 1 : enrichissement.
 
-
Le tout sera envoyé ou mis à disposition '''avant le 21 décembre 2015''' sous forme d'archive contenant le rapport, les jeu de données, les scripts et programmes réalisés.
 

Revision as of 10:24, 28 September 2016

Contents

Projets 2016-17

Les projets, cette année, s'organisent en 2 parties :

  • la partie 1 est individuelle c'est-à-dire que chacun doit la faire et fournir un rapport.
  • la partie 2 est à faire en groupes.

3 Groupes sont à former : 4, 3, et 3 personnes.

Partie 1 Individuelle : enrichissement

Ajout de fonctionnalités à search_enriched_sets.py

Notation : On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (génome). Ils ont respectivement des cardinalités q, t, g.

Il s'agit de proposer d'autres mesures de similarités. La première est naïve (pas statistique) que l'on nommera overlap ou coverage et consiste à considérer quelles fractions des 2 ensembles se correspondent (0 pour aucun élément en commun, 1 pour 2 ensembles identiques). Il s'agit donc de multiplier c/q par c/t avec c le nombre d'éléments communs aux ensembles Q et T respectivement de cardinalités q et t.

La deuxième mesure à ajouter est un χ2 d'indépendance en considérant les ensembles Q et T comme 2 variables qualitatives. Le test est donc à effectuer sur la table de contingence :

T G \ T Σ
Q c q - c q
G \ Q t - c g - q - t + c g - q
Σ t g - t g

Comparaison des mesures ajoutées

Proposez une approche et comparez les différentes mesures intégrées au script. Laquelle est-il préférable d'utiliser ?

Rapport à rendre

Un rapport succinct (quelques pages) est demandé. L'objectif est de fournir plutôt un rapport technique sur la réalisation de cette partie. Il doit donc être complet, pertinent, ciblé (qui est le lecteur ?), scientifique et rigoureux.

Il doit inclure

  • une brève introduction générale décrivant le contexte, les objectifs et le plan de ce qui suit.
  • ajout de fonctionnalités :
    • des explications sur les modifications apportées au script original,
    • comment utiliser le script modifié,
    • un exemple d'utilisation des fonctionnalités ajoutées.
  • comparaison des mesures intégrées :
    • approches envisagées et méthode pour en sélectionner une
    • mise en oeuvre
    • synthèse des résultats obtenus
    • bilan : quelle mesure utiliser de préférence, pourquoi
    • perspectives d'amélioration
  • bilan personnel sur cette partie du projet et sur cette UE : motivations ? critiques ? suggestions ? apports ? ... ?

Contraintes :

  • Le rapport doit être au format PDF.
  • Le rapport peut être en anglais ou en français mais pas les 2.
  • Le script modifié et les éventuels jeux de tests utilisés et résultats obtenus doivent être fournis ou disponibles sous forme d'archive.

Partie 2 collective : Intégration et exploitation de données hétérogènes dans un modèle graphique

Toujours en cours d'élaboration.


Ebauche : questions posées

  • pré-requis : choix d'un organisme (parmi ..?)
  • les gènes orthologues chez E. coli K12 MG1655 des gènes co-exprimés dans l'organisme choisi sont-ils aussi co-exprimés ?
  • quel est le groupe de gènes le mieux conservé (en termes d'othologie, de co-expression, et d'annotation) ?
  • en plus ?
    • les conservés en co-expression forment-ils un opéron chez E. coli ?
    • vaut-il mieux utiliser les orthologues fournis par String ou Roland B. ?
    • associer une ou des annotations aux groupes de gènes co-exprimés

Etapes clés :

  • détermination des gènes co-exprimés
  • identification des gènes orthologues 1:1 chez E. coli
  • constitution de la base de données (de type graph database)
  • correspondance des groupes de gènes co-exprimés chez l'organisme choisi et E. coli
  • en plus ?
    • détermination des opérons chez E. coli
    • correspondance avec les opérons de E. coli
    • mise en oeuvre avec d'autres méthodes pour l'identification des gènes co-exprimés et des orthologues, et comparaison des résultats
    • annotation automatique de groupes de gènes



Calendrier

Le rapport individuel et l'archive associée sont à remettre par voie électronique avant le 17 octobre 2016.

Le rapport collectif est à remettre par voie électronique 1 semaine avant la présentation.