silico.biotoul.fr
 

M1 Traitement de Donnees Biologiques - TP 3 R

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
Line 89: Line 89:
Rappel de la procédure (vue en cours)
Rappel de la procédure (vue en cours)
 +
[[Image:test_homogeneite.jpeg]]
[[Image:test_homogeneite.jpeg]]

Revision as of 08:48, 20 September 2016

Contents

Tests statistiques

La plupart des tests statistiques courants (et bien d’autres) sont programmés dans R. Dans ce TP, nous allons aborder quelques types de tests statistiques très courants:

  • Les tests de Chi2 (test de conformité, test d'indépendance), basés sur les effectifs de différentes classes
  • Les tests d'adéquation (ici nous verrons l'adéquation à la loi Normale)
  • Les tests d'homogénéité (comparaison de moyennes, comparaison de variances)

ATTENTION: pour chaque test statistique, il est crucial de bien connaître l'hypothèse nulle du test (H0) pour pouvoir correctement interpréter !

Créez tout d'abord un répertoire de travail sur le bureau (par exemple TDB-TP3) et commencez par télécharger le fichier source que vous allez utiliser et compléter pour générer le compte rendu de TP : M1.TDB.TP_tests_R.Rmd (click droit de la souris -- enregistrer la cible sous...). Ouvrez le logiciel RStudio et chargez ce fichier puis lancez sa compilation pour voir le compte rendu. Pour cela cliquez sur le bouton Knit HTML ou bien utilisez la combinaison de touches Ctrl + shift + K.

Tests de Chi2

Tests de Chi2 de conformité

On cherche à tester la conformité d'une (ou plusieurs) valeur(s) par rapport à une (des) valeur(s) standard(s) (ou théoriques). Le test de Chi2 de conformité s'effectue sur les effectifs des différentes classes d'une variable qualitative (ou quantitative).

Notre exemple porte sur les proportion mendéliennes dans une descendance issue d'autofécondation d'une F1 hétérozygote. Image:mendel.jpeg

Pour un gène avec 2 allèles, les proportions génotypiques attendues (relatives) dans la descendance sont:

freq_exp =c(?,?,?) # mettre sous forme de fréquences relatives

Suite à un croisement effectué en laboratoire, les proportions génotypiques observées (absolues) parmis 100 individus descendants sont:

freq_obs =c(22,53,25)

Question: les proportions observées sont-elles conformes aux proportions mendéliennes? Pour cela il faut effectuer la commande suivante, et répondre aux questions ci-après:

chisq.test(freq_obs,p=freq_exp)
  • Quelle est l'hypothèse nulle (H0) du test ? L'hypothèse alternative (H1) ?
  • Qu'indique la p-valeur ?
  • La p-valeur est-elle inférieure ou supérieure au seuil alpha = 5% ?

Conclusion:

Ajoutez ces parties à votre compte rendu.

Tests de Chi2 d'indépendance

On cherche à évaluer la relation entre deux variables qualitatives à 2 ou > 2 modalités. Le test de Chi2 d'indépendance s'effectue sur les effectifs des différentes classes des 2 variables qualitatives.

Notre exemple: la résistance ou sensibilité à un pathogène est-elle indépendante de l'écotype d'Arabidopsis thaliana ? Autrement dit y-a-t-il indépendance entre phénotype et écotype?

On va faire un test de Chi2, sur table de contingence des effectifs des différents écotypes pour chaque phénotype qualitatif, comme celle-ci:

                 Col  Ws Can
        Résistant 15   5   3
        Sensible   0  19  16

Pour cela on crée un tableau de contingence:

mat=matrix(c(15,5,3,0,19,16),nrow=2,byrow=T, dimnames=list(c("R","S"), c("Col","Ws","Can")))
mat

Puis on utilise la commande:

chisq.test(mat, correct =F)

Conclusion (posez vous les mêmes questions que dans l'exercice précédent) ?

S'il y a une relation entre phénotype et écotype, comment se traduit-elle ?

obs=chisq.test(mat, correct =F)$observed
exp=chisq.test(mat, correct =F)$expected
obs-exp

Conclusion ?

Ajoutez ces parties à votre compte rendu.


Tests d'adéquation et tests d'homogénéité (sur une variable quantitative)

Nous allons intégrer ces tests dans le contexte d'une même analyse statistique.

Dans cet exercice, nous allons chercher à comparer les valeurs d'une variable quantitative mesurée dans 2 échantillons 1 et 2, à l'aide d'un test de Student de comparaison de moyennes de 2 échantillons. La question posée est: la taille moyenne (à un temps de donné) de plantules d' A. thaliana de génotype "sauvage" (Col_0) et d'un mutant pour le gène X1 (Mut_X1) est-elle la même (hypothèse H0)?

Rappel de la procédure (vue en cours)

Image:test_homogeneite.jpeg

Les données (petits calculs et graphiques

# Vecteurs des tailles des plantes
Col_0=c(4.30,4.25,3.50,3.35,4.30,3.75,3.55,4.10,3.95,4.55,4.25,3.75,3.85,4.15,3.55,4.75,3.95,3.65)
Mut_X1=c(3.06,4.05,3.95,3.40,3.80,3.95,3.65,4,3.85,3.95,3.65,3.75,3.4)
# Valeurs moyennes
mean(Col_0)
mean(Mut_X1)
# Représentation graphique des données
boxplot(Col_0,Mut_X1,names=c("Col_0","Mut_X1"),col=c("white","darkgreen"),ylab="taille (cm)")
abline(h=mean(Col_0),col="black",lty=3,lwd=2)
abline(h=mean(Mut_X1),col="green",lty=3,lwd=2)
legend("topright", legend = c("Mut_X1","Col_A" ), text.col = c("darkgreen","black"))

Test d'adéquation à la loi normale (H0 = "les données suivent la loi Normale")

# Test de Shapiro 
shapiro.test(Col_0)
shapiro.test(Mut_X1)

Conclusion?

Test d'homogénéité des variances (H0 = "les variances sont homogènes")

# Test de Fischer 
var.test(Col_0,Mut_X1)

Conclusion?


Test d'homogénéité (de comparaison) des moyennes

 
 









Ajoutez tout cela au compte rendu de TP avant de l'envoyer à votre enseignant par mail (bonhomme@lrsv.ups-tlse.fr ou barriot@biotoul.fr). Le compte rendu est à envoyer avant de commencer le TP4. Envoyez les 2 fichiers (.Rmd et .html). Envoyez-vous aussi le mail en copie pour pouvoir vérifier que tout est bien passé. Mettez un titre tel que "Compte rendu TP3 TDB de -et votre Nom et Prénom-".

Liens