Revision as of 10:46, 25 October 2013

Projets 2013-14

Le projet consiste en la mise en oeuvre d'un algorithme de recherche de caractéristiques sur-représentées au sein d'un ensemble de gènes par confrontation avec d'autres ensembles de gènes (relation de voisinage). Les caractéristiques/voisinages à rechercher sont constitué(e)s d'ensembles de gènes imbriqués les uns dans les autres selon 3 structures (posets) : (i) arbre, (ii) graphe acyclique orienté ou encore (iii) treillis. Des algorithmes efficaces sont présentés dans [1], et aussi [2] pour la structure en treillis. Vous aurez donc à choisir une des méthodes pour sa mise en oeuvre. Le travail à réaliser se décompose en :

sélection d'une des méthodes
implémentation sous forme de script Perl
constitution de jeux de données (et éventuellement de scripts pour convertir les données)
utilisation du script
remise d'un rapport (conception, réalisation, jeu de test, évaluation, bilan et perspectives. annexe : présentation détaillée du travail de chacun)
présentation orale et démonstration

Projet 1 : Relation de voisinage représenté par un graphe acyclique orienté (DAG)

Projet 2 : Voisinage représenté par un arbre (tree)

Projet 3 : Voisinage représenté par un treillis (lattice)

Références

Projets 2012-13

Calendrier :

1 octobre : proposition de projets

2 octobre : sélection d'un projet : envoyer un mail indiquant
- le projet choisi
- pour la confrontation ensembliste, l'hypothèse biologique testée et quelles sources de données (et sur quel organisme) vont être confrontées pour tester cette hypothèse.

19 octobre : remise des projets par voie électronique sous la forme :
- un rapport
- les scripts réalisés

Une démo de biomart sera à prévoir pour ceux qui auront choisi le projet n°1.

Contenu du rapport : Le contenu est à adapter un fonction du projet. Dans tous les cas, il faudra

motiver et documenter les choix effectués
décrire les difficultés rencontrées, quelles solutions ont été envisagées, testées, fructueuses ou infructueuses (quoi, pourquoi, comment ?)

Projet 1 : ajout d'une source de données (BioCyc)

Récupérer les données BioCyc prétraitées (lin sur cette page en bas) et :

ajouter à l'instance de serveur BioMart
faire un script python pour récupérer, en fonction de l'espèce spécifiée, un fichier d'entrée pour sookoos pour les données BioCyc à partir des services Web du serveur biomart.
analyser les pathways biocyc en les confrontant avec sookoos à différents autres critères de regroupement (par exemple les données d'expression).
synthétiser et interpréter les résultats de sookoos.

Projet 2 : implémentation d'un module Perl pour sookoos

Implémentation du module

Le module Perl Neighborhood fourni permet actuellement de rechercher des ensembles similaires au sein d'ordres partiels sur les ensembles représentés par soit de simples ensembles (sets), soit une hiérarchie sous forme d'arbre (newick), soit une hiérarchie sous forme de graphe (dag). Il s'agit donc de développer un module Perl Neighborhood::Lattice qui permette de rechercher des ensembles similaires sur un ou des chromosomes.

L'algorithme pour rechercher les ensembles similaires est le suivant :

foreach chromosome
  for i=0..query_length-1
    left_bound = query[i] # position of gene[i] on the chromosome
    next if left_bound == query[i-1]+1 # previous iteration was more pertinent
    for j=i+1..query_length
      right_bound = query[j]
      next if right_bound +1 == query[j+1] # next iteration will be more pertinent
 
      # compute pvalue or dissimilarity
      ...
      # add to results if significant
      ...

Remarque : Attention, dans le cas de chromosome circulaire, il faut adapter la définition de pertinence et la prise en compte de l'intervalle. En effet, deux gènes de l'ensemble requête définissent un intervalle sur le chromosome et en cas de chromosome circulaire il faut prendre le plus petit des 2 intervalles possibles (Qi..Qj ou Qj..Qi).

Les autres méthodes à développer sont les suivantes :

load(filename): pour charger les données.
searchSingleSet(id1, id2, ...): recherche d'ensembles similaires.

Utilisation du module

Confronter différents critères de regroupement avec la localisation des gènes sur le(s) chromsome(s) (String, GO, ...).

Analyser et interpréter les résultats de sookoos.

@@ Line 1: / Line 1: @@
-= Projets 2013 14 =
+= Projets 2013-14 =
+Le projet consiste en la mise en oeuvre d'un algorithme de recherche de caractéristiques sur-représentées au sein d'un ensemble de gènes par confrontation avec d'autres ensembles de gènes (relation de voisinage). Les caractéristiques/voisinages à rechercher sont constitué(e)s d'ensembles de gènes imbriqués les uns dans les autres selon 3 structures (posets) : (i) arbre, (ii) graphe acyclique orienté ou encore (iii) treillis. Des algorithmes efficaces sont présentés dans [1], et aussi [2] pour la structure en treillis. Vous aurez donc à choisir une des méthodes pour sa mise en oeuvre. Le travail à réaliser se décompose en :
+* sélection d'une des méthodes
+* implémentation sous forme de script Perl
+* constitution de jeux de données (et éventuellement de scripts pour convertir les données)
+* utilisation du script
+* remise d'un rapport (conception, réalisation, jeu de test, évaluation, bilan et perspectives. annexe : présentation détaillée du travail de chacun)
+* présentation orale et démonstration
+== Projet 1 : Relation de voisinage représenté par un graphe acyclique orienté (DAG) ==
+== Projet 2 : Voisinage représenté par un arbre (tree) ==
+== Projet 3 : Voisinage représenté par un treillis (lattice) ==
+<big>'''Références'''</big>
+# [http://www.biomedcentral.com/1471-2105/8/332/abstract  Barriot, R., Sherman, D., Dutour, I., How to decide which are the most pertinent overly-represented features during gene set enrichment analysis (2007) BMC Bioinformatics, 8:332]
+# [http://nar.oxfordjournals.org/cgi/content/short/gkn114v1 De Preter, K., Barriot, R., Speleman, F., Vandesompele, J., Moreau, Y., Positional gene enrichment analysis of gene sets for high resolution identification of overrepresented chromosomal regions (2008) Nucleic Acids Research]
 = Projets 2012-13 =

M2BBS Integration de Donnes Heterogenes - Projets

From silico.biotoul.fr