M2BBS Integration de Donnes Heterogenes - Projets
From silico.biotoul.fr
m (→Intégration et préparation des données) |
m (→Intégration et préparation des données) |
||
(10 intermediate revisions not shown) | |||
Line 28: | Line 28: | ||
Prénom → Organisme | Prénom → Organisme | ||
Refka → Lactobacillus kunkeei (taxid: 148814) | Refka → Lactobacillus kunkeei (taxid: 148814) | ||
- | Laura BS | + | Laura BS → Vibrio cholerae |
- | Quentin | + | Quentin → Picrophilus torridus (strain DSM 9790) |
Tomas → Staphylococcus aureus | Tomas → Staphylococcus aureus | ||
- | Pierre | + | Pierre → Enterobacter aerogenes |
Sophie → Ralstonia Solanacearum (GMI 1000) | Sophie → Ralstonia Solanacearum (GMI 1000) | ||
- | Aurélien | + | Aurélien → Vibrio parahaemolyticus |
Valentine → Proteus mirabilis | Valentine → Proteus mirabilis | ||
Laura DF → Clostridium tetanomorphum | Laura DF → Clostridium tetanomorphum | ||
Codé → Bacillus subtilis | Codé → Bacillus subtilis | ||
- | Antoine | + | Antoine → Mycobacterium tuberculosis (strain ATCC 25618 / H37Rv) |
Baptiste → Bradyrhizobium sp. ORS 278 | Baptiste → Bradyrhizobium sp. ORS 278 | ||
- | Jérémy → Pseudomonas | + | Jérémy → Pseudomonas putida KT2440 |
Alexia → Streptococcus pneumoniae | Alexia → Streptococcus pneumoniae | ||
- | Safia → | + | Safia → Caulobacter crescentus CB15 |
Houyem → Shigella flexneri | Houyem → Shigella flexneri | ||
</pre> | </pre> | ||
+ | |||
+ | Groupes partie 2 : | ||
+ | * Quentin, Pierre, Aurélien, Codé | ||
+ | * Safia, Refka, Houyem, Laura B | ||
+ | * Tomas, Sophie, Valentine, Laura D | ||
+ | * Jérémy, Baptiste, Antoine, Alexia | ||
=== Ajout de fonctionnalités à <tt>blastsets.py</tt> === | === Ajout de fonctionnalités à <tt>blastsets.py</tt> === | ||
Line 74: | Line 80: | ||
Il doit inclure | Il doit inclure | ||
- | * une brève introduction générale décrivant le contexte, les objectifs et le plan de ce qui suit. | + | * une brève introduction générale décrivant le contexte, les objectifs et le plan de ce qui suit. Une partie pédagogique sur l'organisme choisi serait la bienvenue (habitat, mode de vie, caractéristiques particulières, intérêt pour vous et/ou pour la communauté scientifique, ...). |
* intégration et préparation des données | * intégration et préparation des données | ||
** données utilisées (sans oublier les versions) | ** données utilisées (sans oublier les versions) | ||
Line 95: | Line 101: | ||
* Le rapport peut être en anglais ou en français mais pas les 2. | * Le rapport peut être en anglais ou en français mais pas les 2. | ||
* Le script modifié et les éventuels jeux de tests utilisés et résultats obtenus doivent être fournis ou disponibles sous forme d'archive ou projet gitlab. | * Le script modifié et les éventuels jeux de tests utilisés et résultats obtenus doivent être fournis ou disponibles sous forme d'archive ou projet gitlab. | ||
- | |||
== Partie 2 collective : Intégration et exploitation de données hétérogènes dans un modèle graphique == | == Partie 2 collective : Intégration et exploitation de données hétérogènes dans un modèle graphique == | ||
Line 102: | Line 107: | ||
** des liens d'orthologie au minimum avec les gènes ''E. coli'', et si possible des liens d'orthologie entre toutes les paires de gènes de votre base | ** des liens d'orthologie au minimum avec les gènes ''E. coli'', et si possible des liens d'orthologie entre toutes les paires de gènes de votre base | ||
* Analyser la conservation des clusters identifiés en TP sur ''E. coli'' (et leurs annotations) dans les organismes ajoutés : | * Analyser la conservation des clusters identifiés en TP sur ''E. coli'' (et leurs annotations) dans les organismes ajoutés : | ||
- | ** tous les clusters sont-ils présents ? en totalité ou partiellement ? partagent-ils les mêmes | + | ** tous les clusters sont-ils présents ? en totalité ou partiellement ? partagent-ils les mêmes annotations ? |
** y en a-t-il de supplémentaires ? lesquels sont absents ? | ** y en a-t-il de supplémentaires ? lesquels sont absents ? | ||
** les annotations enrichies dans ces clusters correspondent-elles à celles observées des clusters de ''E. coli'' ? | ** les annotations enrichies dans ces clusters correspondent-elles à celles observées des clusters de ''E. coli'' ? |
Current revision as of 10:40, 25 November 2020
Contents |
Projet 2020-21
Les projets s'organisent en 2 parties :
- la partie 1 est individuelle (c'est-à-dire que chacun·e doit la faire et fournir un rapport).
- la partie 2 est à faire en groupe de 4 personnes
Calendrier
- Partie 1 : à rendre mi-novembre (ainsi tou·te·s les participant·e·s pourront démarrer la partie 2)
- Partie 2 : rapport à rendre une semaine avant les présentations du 17/12 8h-12h
Partie 1 Individuelle : enrichissement/Gene Set Enrichment Analysis
Intégration et préparation des données
Outline:
- Choisir un organisme. Le même organisme ne peut pas être pris par plusieurs personnes. La liste des choix attribués (premier arrivé, premier servi) sera disponible en fin de cette section.
- Enrichir la base de connaissances faite en TP par l'ajout :
- des liens d'orthologie avec les gènes E. coli
- des liens de coexpression, d'interaction protéine-protéine, de conservation du contexte génomique pour l'organisme ajouté
- Fournir un script/document (par exemple la procédure réalisée ensemble sur E. coli) permettant de recréer la base de connaissances, ainsi que les fichiers nécessaires pour analyses d'enrichissement en termes GO :
- le premier fournit les associations directes : la liste des gènes annotés directement par un même terme
- le second fournit les associations implicites : la listes des gènes annotés par un même terme ou un de ses descendants (plus spécifiques)
- Utiliser des statistiques descriptives (par exemple : nombre de gènes annotés sur le génome, nombre de termes par gène, nombre de gènes par terme, ...) afin de discuter de l'avancement de l'annotation de l'organisme choisi.
Prénom → Organisme Refka → Lactobacillus kunkeei (taxid: 148814) Laura BS → Vibrio cholerae Quentin → Picrophilus torridus (strain DSM 9790) Tomas → Staphylococcus aureus Pierre → Enterobacter aerogenes Sophie → Ralstonia Solanacearum (GMI 1000) Aurélien → Vibrio parahaemolyticus Valentine → Proteus mirabilis Laura DF → Clostridium tetanomorphum Codé → Bacillus subtilis Antoine → Mycobacterium tuberculosis (strain ATCC 25618 / H37Rv) Baptiste → Bradyrhizobium sp. ORS 278 Jérémy → Pseudomonas putida KT2440 Alexia → Streptococcus pneumoniae Safia → Caulobacter crescentus CB15 Houyem → Shigella flexneri
Groupes partie 2 :
- Quentin, Pierre, Aurélien, Codé
- Safia, Refka, Houyem, Laura B
- Tomas, Sophie, Valentine, Laura D
- Jérémy, Baptiste, Antoine, Alexia
Ajout de fonctionnalités à blastsets.py
Notation : On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (génome). Ils ont respectivement des cardinalités q, t, g.
Il s'agit de proposer d'autres mesures de similarités. La première est naïve (pas statistique) que l'on nommera overlap ou coverage et consiste à considérer quelles fractions des 2 ensembles se correspondent. Pour la cohérence avec les autres mesures la valeur sera de 1 quand aucun élément n'est commun aux 2 ensembles, et 0 pour 2 ensembles identiques. Il s'agit donc de multiplier c/q par c/t avec c le nombre d'éléments communs aux ensembles Q et T respectivement de cardinalités q et t, et de soustraire cette valeur à 1.
La deuxième mesure à ajouter est un χ2 d'indépendance en considérant les ensembles Q et T comme 2 variables qualitatives. Le test est donc à effectuer sur la table de contingence :
T | G \ T | Σ | |
Q | c | q - c | q |
G \ Q | t - c | g - q - t + c | g - q |
Σ | t | g - t | g |
Remarque : Il est possible de s'autoriser à transformer la mesure non statistique (coverage) afin qu'elle indique la dissemblance entre 2 ensembles (0 : identique, >0 : dissemblable). Ainsi les résultats seront triés dans le même ordre pour coverage et pour les p-valeurs (du χ2 par exemple).
Comparaison des mesures ajoutées
Proposez une approche et comparez les différentes mesures intégrées au script. Laquelle est-il préférable d'utiliser ?
Rapport à rendre
Un rapport succinct est demandé. L'objectif est de fournir plutôt un rapport technique pour l'ajout des mesures au script et méthodologique pour la partie comparaison des mesures. Il doit donc être complet, pertinent, ciblé (qui est le lecteur ?), scientifique et rigoureux.
Il doit inclure
- une brève introduction générale décrivant le contexte, les objectifs et le plan de ce qui suit. Une partie pédagogique sur l'organisme choisi serait la bienvenue (habitat, mode de vie, caractéristiques particulières, intérêt pour vous et/ou pour la communauté scientifique, ...).
- intégration et préparation des données
- données utilisées (sans oublier les versions)
- méthodes d'intégration envisagées, choix et détails dans la réalisation (le document détaillé permettant de recréer la base et les fichiers pour les analyses d'enrichissement pourra être fourni à part sous forme de compte rendu RMarkdown s'il est trop similaire à celui réalisé en TP)
- statistiques descriptives sur l'avancement de l'annotation de l'organisme choisi (avec des illustrations pertinentes)
- ajout de fonctionnalités :
- des explications sur les modifications apportées au script original,
- comment utiliser le script modifié,
- un exemple d'utilisation des fonctionnalités ajoutées.
- comparaison des mesures intégrées :
- approches envisagées et méthode pour en sélectionner une
- mise en oeuvre
- synthèse des résultats obtenus
- bilan : quelle mesure utiliser de préférence, pourquoi
- perspectives d'amélioration
- bilan personnel sur cette partie du projet et sur cette UE : motivations ? critiques ? suggestions ? apports ? ... ?
Contraintes :
- Le rapport doit être au format PDF. La partie réalisation de "intégration et préparation des données" peut être sommaire et renvoyer vers le compte rendu associé.
- Le rapport peut être en anglais ou en français mais pas les 2.
- Le script modifié et les éventuels jeux de tests utilisés et résultats obtenus doivent être fournis ou disponibles sous forme d'archive ou projet gitlab.
Partie 2 collective : Intégration et exploitation de données hétérogènes dans un modèle graphique
- Enrichir la base de connaissances faite en TP par les organismes étudiés individuellement par les membres du groupe dans la partie 1, ainsi que l'ajout :
- des liens d'orthologie au minimum avec les gènes E. coli, et si possible des liens d'orthologie entre toutes les paires de gènes de votre base
- Analyser la conservation des clusters identifiés en TP sur E. coli (et leurs annotations) dans les organismes ajoutés :
- tous les clusters sont-ils présents ? en totalité ou partiellement ? partagent-ils les mêmes annotations ?
- y en a-t-il de supplémentaires ? lesquels sont absents ?
- les annotations enrichies dans ces clusters correspondent-elles à celles observées des clusters de E. coli ?
Rapport à rendre
Un rapport synthétique sur les approches envisagées pour la comparaison des clusters, la méthode sélectionnée et les principaux résultats obtenus qui seront ensuite discutés.