Caracterisation d un ensemble

From silico.biotoul.fr

Cas d'une liste de gènes co-exprimés ou différentiellement exprimés

Pour la caractérisation d'un ensemble, il s'agit de tester si certaines caractéristiques sont sur-représentées par rapport à ce qu'il peut être attendu si les éléments de l'ensemble avaient été choisis au hasard dans une population (typiquement le génome).

Le cadre est le suivant. On dispose

d'une part d'une liste de gènes d'intérêt (différentiellement exprimés ou co-exprimés), et
d'autre part d'une caractéristique ou annotation, par exemple l'implication du produit d'un gène dans la biosynthèse des acides aminés. Cette caractéristique définit également un ensemble de gènes.

Plusieurs tests ont été proposés pour tester si l'annotation était caractéristique à la liste de gènes d'intérêt. Le plus simple est de considérer le pourcentage ou la fréquence de l'annotation au sein de la liste des gènes d'intérêt : on s'intéresse uniquement aux nombre de gènes portant cette annotation parmi les gènes d'intérêt. Si ce nombre est suffisamment important alors on peut penser que l'annotation est représentative de l'ensemble. L'inconvénient de cette approche est que ce n'est pas un test statistique. A l’extrême, elle peut même rapporter des annotations sous-représentées lorsque par exemple la fréquence au sein des gènes d'intérêt est de 90% (ce qui peut paraître beaucoup) alors que la fréquence dans le génome est de 95%. Dans ce cas, l'annotation est moins fréquente qu'attendue. Pour pallier ce défaut, d'autres tests ont été proposés :

chi2 d'indépendance : on teste s'il y a indépendance entre le fait d'être différentiellement exprimé (ou co-exprimé) et le fait d'être impliqué dans la biosynthèse des acides aminés. Plus la probabilité de l'indépendance est faible, et plus on a de chance que les deux phénomènes soient liés.
loi binomiale : on considère les gènes d'intérêt comme un tirage aléatoire (avec remise, c'est-à-dire qu'un même gène peut être sélectionné plusieurs fois) parmi le génome. Pour chaque gène sélectionné, on a une certaine probabilité de tirer un gène impliqué dans la biosynthèse des acides aminés (fréquence de l'annotation dans le génome). Le test permet de calculer la probabilité de tirer au moins autant de gènes ayant cette annotation. Plus cette probabilité est faible et plus l'annotation est caractéristique.
loi hypergéométrique : sans rentrer dans les détails, il s'agit, comme pour la précédente, d'estimer la probabilité d'avoir autant de gènes portant cette annotation dans notre liste de gènes d'intérêt. La différence est que, pour la loi hypergéométrique, il n'y a pas de remise, c'est-à-dire que un gène ne peut être sélectionné qu'une seule fois. Elle est donc plus pertinente que la loi binomiale, mais en pratique, les résultats sont presque identiques du fait des nombres impliqués (millier de gènes pour le génome, dizaines ou centaines de gènes pour les listes de gènes).

En d'autres termes et pour schématiser, pour tester si une annotation est caractéristique d'un ensemble de gènes, on teste si l'annotation parmi nos gènes d'intérêt est plus fréquente qu'attendue (généralement, plus fréquente que dans le génome).

Le test est répété pour chaque annotation dont on dispose (par exemple, biosynthèse de la méthionine, ...). Dans ce cadre de tests multiples, il est conseillé de faire un ajustement des p-valeurs obtenues pour éliminer les faux positifs (annotations non caractéristiques).