silico.biotoul.fr
 

M2BBS GDNS-APG - Projets

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
Barriot (Talk | contribs)
(Created page with ' == Calendrier == == Travail à réaliser == === Constitution de la base de données === === Ajout de fonctionnalités au script de recherche d'enrichissement <tt>blastsets.py…')
Newer edit →

Revision as of 13:22, 15 October 2021

Contents

Calendrier

Travail à réaliser

Constitution de la base de données

Ajout de fonctionnalités au script de recherche d'enrichissement blastsets.py

Notation : On considère un ensemble requête Q (query) et un ensemble cible T (target, appartenant à un jeu de données de référence). Les deux ensembles sont inclus dans l'ensemble des gènes de l'organisme G (génome). Ils ont respectivement des cardinalités q, t, g.

Il s'agit de proposer d'autres mesures de similarités. La première est naïve (pas statistique) que l'on nommera overlap ou coverage et consiste à considérer quelles fractions des 2 ensembles se correspondent. Pour la cohérence avec les autres mesures la valeur sera de 1 quand aucun élément n'est commun aux 2 ensembles, et 0 pour 2 ensembles identiques. Il s'agit donc de multiplier c/q par c/t avec c le nombre d'éléments communs aux ensembles Q et T respectivement de cardinalités q et t, et de soustraire cette valeur à 1.

La deuxième mesure à ajouter est un χ2 d'indépendance en considérant les ensembles Q et T comme 2 variables qualitatives. Le test est donc à effectuer sur la table de contingence :

T G \ T Σ
Q c q - c q
G \ Q t - c g - q - t + c g - q
Σ t g - t g

Remarque : Il est possible de s'autoriser à transformer la mesure non statistique (coverage) afin qu'elle indique la dissemblance entre 2 ensembles (0 : identique, >0 : dissemblable). Ainsi les résultats seront triés dans le même ordre pour coverage et pour les p-valeurs (du χ2 par exemple).

Comparaison des mesures ajoutées

Proposez une approche et comparez les différentes mesures intégrées au script. Laquelle est-il préférable d'utiliser ?