silico.biotoul.fr
 

L2-L3 Bioinfo - TP Analyses statistiques des données (phénotypes,génotypes)

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
Line 35: Line 35:
<span style='color: #990000'>
<span style='color: #990000'>
-
Quelles sont les dimensions du tableau (utilisez la fonction dim() )?
+
Quelles sont les dimensions du tableau ? Combien y-a-t-il de variables ? Pour cela utilisez la fonction dim().
-
Combien y-a-t-il de variables ?
+
Repérez les variables quantitatives (numériques) et les variables qualitatives (facteur, variable binaire). Pour cela vous pouvez utilisez par exemple la fonction str().  
-
Repérez les variables quantitatives (numériques) et les variables qualitatives ("facteurs"). Pour cela vous pouvez utilisez par exemple la fonction str().  
+
</span>
</span>

Revision as of 20:57, 6 February 2019

Contents

Analyses statistiques des données (phénotypes, génotypes)

Lors du TP précédent, vous avez manipulé une base de données comportant différentes sources d'informations concernant les lignées d'Arabettes analysées en traitement d'images. Dans le cadre du présent TP, vous allez analyser le tableau de données généré à partir de la base de donnée, avec le logiciel d'analyses statistiques R.

Créer un répertoire de travail sur le bureau (par exemple TP3) et téléchargez le fichier de données données TP3 (click droit de la souris -- enregistrer la cible sous...). Ouvrez le logiciel R, changez le répertoire courant vers le répertoire contenant le fichier de données.


Lecture et exploration du tableau de données

Lecture:

arabido=read.table("data_for_TP3.txt", sep="\t", header=TRUE)

ou directement à partir de l'URL du fichier :

arabido=read.table("http://silico.biotoul.fr/site/images/1/1d/data_for_TP3.txt", sep="\t", header=TRUE) # nécessite une connexion internet

Accéder directement aux variables simplement en donnant leurs noms:

attach(arabido)
names(arabido)


Il faut savoir que:

  • pour les marqueurs de type "Gene_At" et "RetroTransp" c'est la présence/absence du locus qui est codée 1/0.
  • pour les marqueurs de type SNP c'est le nucléotide présent qui est mentionné ("A ou G", "C ou A", etc...).
  • pour les marqueurs de type SSR, c'est le nombre de répétitions qui est mentionné.

Quelles sont les dimensions du tableau ? Combien y-a-t-il de variables ? Pour cela utilisez la fonction dim(). Repérez les variables quantitatives (numériques) et les variables qualitatives (facteur, variable binaire). Pour cela vous pouvez utilisez par exemple la fonction str().

Graphiques

  • Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et le nombre de racines latérales.
  • Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et la latitude; de même avec la longitude.
  • Réalisez un graphique permettant de visualiser l'effet de la présence/absence naturelle de la bactérie dans le pays d'origine des plantes, sur la surface foliaire.

Utilisez les commandes plot() [exemple plot(x,y)] et boxplot() [exemple boxplot(y~x)] pour réaliser ces graphiques.

Qu'en déduisez-vous?


Calculs de corrélations

  • Calculez 2 à 2 le coefficient de corrélation entre la surface des feuilles, le nombre de racines latérales, la latitude, la longitude.

Cela vous semble-t-il en cohérence avec les graphiques précédents?


Tests statistiques de corrélation/association entre les valeurs phénotypiques des individus et leurs génotypes aux marqueurs moléculaires

  • Réalisez un test de comparaison des valeurs moyennes de la surface des feuilles pour les groupes génotypiques à chaque marqueur biallélique (test de Student). Pour cela, utilisez la commande t.test().

Utilisez le code suivant pour programmer une série de tests de Student sur différentes colonnes du tableau, et récupérer la p-valeur de chaque test.

pval=c()
for (i in 8:15) pval[i-8+1]=unlist(t.test(Leaf_area~arabido[,i])[3])
data.frame(colnames(arabido)[8:15],pval)

Essayez de comprendre ce code. Que concluez-vous de ces analyses statistiques?

remarque: l'hypothèse du test de Student est l'égalité des moyennes des 2 groupes testés. On ne rejette pas cette hypothèse si la p-valeur est > 0.05.


  • Réalisez le même test mais avec le nombre de racines latérales.

Que remarquez-vous?


  • Réalisez enfin des graphiques permettant de visualiser les corrélations phénotype / génotype pour les marqueurs significativement associés aux valeurs phénotypiques de surface des feuilles, et du nombre de racines latérales (utilisez la commande boxplot()).

Que concluez-vous de ces analyses statistiques? Donnez une explication aux résultats observés.



La présence/absence du locus At5g46330 semble conditionner la réponse à l'infection par la bactérie chez les plantes. Le prochain TP (TP4) consistera en l'étude de ce locus à l'aide de bases de données et d'analyses de séquences ...

Liens