M2BBS GDNS-APG - Projets
From silico.biotoul.fr
m (Created page with ' == Calendrier == == Travail à réaliser == === Constitution de la base de données === === Ajout de fonctionnalités au script de recherche d'enrichissement <tt>blastsets.py…') |
m |
||
Line 1: | Line 1: | ||
- | |||
== Calendrier == | == Calendrier == | ||
Line 29: | Line 28: | ||
Proposez une approche et comparez les différentes mesures intégrées au script. Laquelle est-il préférable d'utiliser ? | Proposez une approche et comparez les différentes mesures intégrées au script. Laquelle est-il préférable d'utiliser ? | ||
+ | |||
+ | == Rapport à rendre == |
Revision as of 13:23, 15 October 2021
Contents |
Calendrier
Travail à réaliser
Constitution de la base de données
Ajout de fonctionnalités au script de recherche d'enrichissement blastsets.py
Notation : On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (génome). Ils ont respectivement des cardinalités q, t, g.
Il s'agit de proposer d'autres mesures de similarités. La première est naïve (pas statistique) que l'on nommera overlap ou coverage et consiste à considérer quelles fractions des 2 ensembles se correspondent. Pour la cohérence avec les autres mesures la valeur sera de 1 quand aucun élément n'est commun aux 2 ensembles, et 0 pour 2 ensembles identiques. Il s'agit donc de multiplier c/q par c/t avec c le nombre d'éléments communs aux ensembles Q et T respectivement de cardinalités q et t, et de soustraire cette valeur à 1.
La deuxième mesure à ajouter est un χ2 d'indépendance en considérant les ensembles Q et T comme 2 variables qualitatives. Le test est donc à effectuer sur la table de contingence :
T | G \ T | Σ | |
Q | c | q - c | q |
G \ Q | t - c | g - q - t + c | g - q |
Σ | t | g - t | g |
Remarque : Il est possible de s'autoriser à transformer la mesure non statistique (coverage) afin qu'elle indique la dissemblance entre 2 ensembles (0 : identique, >0 : dissemblable). Ainsi les résultats seront triés dans le même ordre pour coverage et pour les p-valeurs (du χ2 par exemple).
Comparaison des mesures ajoutées
Proposez une approche et comparez les différentes mesures intégrées au script. Laquelle est-il préférable d'utiliser ?