silico.biotoul.fr
 

L2-L3 Bioinfo - TP Analyses statistiques des données (phénotypes,génotypes)

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
Line 30: Line 30:
== Graphiques ==
== Graphiques ==
-
- Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et le nombre de racines latérales.
+
* Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et le nombre de racines latérales.
-
- Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et la longitude; de même avec la latitude.
+
* Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et la longitude; de même avec la latitude.
-
- Réalisez un graphique permettant de visualiser l'effet de la présence/absence naturelle de la bactérie dans le pays d'origine des plantes, sur la surface foliaire.
+
* Réalisez un graphique permettant de visualiser l'effet de la présence/absence naturelle de la bactérie dans le pays d'origine des plantes, sur la surface foliaire.
Utilisez les commandes plot() [exemple plot(x,y)] et boxplot( )[exemple boxplot(y~x)] pour réaliser ces graphiques.
Utilisez les commandes plot() [exemple plot(x,y)] et boxplot( )[exemple boxplot(y~x)] pour réaliser ces graphiques.
Line 42: Line 42:
== Calculs de corrélations ==
== Calculs de corrélations ==
-
- calculez 2 à 2 le coefficient de corrélation entre la surface des feuilles, le nombre de racines latérales, la latitude, la longitude.
+
* calculez 2 à 2 le coefficient de corrélation entre la surface des feuilles, le nombre de racines latérales, la latitude, la longitude.
<span style='color: #990000'>
<span style='color: #990000'>
Que remarquez vous?
Que remarquez vous?
Line 49: Line 49:
== Tests statistiques de corrélation/associations entre les valeurs phénotypiques des individus et leurs génotypes aux marqueurs moléculaires ==
== Tests statistiques de corrélation/associations entre les valeurs phénotypiques des individus et leurs génotypes aux marqueurs moléculaires ==
-
- Réalisez un test de comparaison des valeurs moyennes de la surface des feuilles pour les groupes alléliques à chaque marqueur (test de Student). Pour cela, utilisez la commande t.test().
+
* Réalisez un test de comparaison des valeurs moyennes de la surface des feuilles pour les groupes alléliques à chaque marqueur (test de Student). Pour cela, utilisez la commande t.test().
Utilisez la boucle suivante pour programmer une série de tests de Student sur différentes colonnes du tableau, et récupérer la p-value de chaque test.
Utilisez la boucle suivante pour programmer une série de tests de Student sur différentes colonnes du tableau, et récupérer la p-value de chaque test.
Line 64: Line 64:
</span>
</span>
-
- Réalisez le même test mais avec le nombre de racines latérales
+
* Réalisez le même test mais avec le nombre de racines latérales
<span style='color: #990000'>
<span style='color: #990000'>
Que remarquez-vous?
Que remarquez-vous?
Line 70: Line 70:
-
- Réalisez maintenant un test statistique de corrélation entre les valeurs phénotypiques (surface des feuilles, puis nombre de racines latérales) et le génotype aux marqueurs moléculaires multialléliques (2 marqueurs SSR)  
+
* Réalisez maintenant un test statistique de corrélation entre les valeurs phénotypiques (surface des feuilles, puis nombre de racines latérales) et le génotype aux marqueurs moléculaires multialléliques (2 marqueurs SSR)  
Pour cela, utilisez les commandes cor() et cor.test().
Pour cela, utilisez les commandes cor() et cor.test().
Line 79: Line 79:
-
- Réalisez enfin des graphiques permettant de visualiser les corrélations phénotype / génotype pour les marqueurs significativement associés aux valeurs phénotypiques desurface des feuilles, et du nombre de racines latérales (utilisez les commandes plot() et boxplot().
+
* Réalisez enfin des graphiques permettant de visualiser les corrélations phénotype / génotype pour les marqueurs significativement associés aux valeurs phénotypiques desurface des feuilles, et du nombre de racines latérales (utilisez les commandes plot() et boxplot().

Revision as of 14:30, 26 January 2017

Contents

Analyses statistiques des données (phénotypes,génotypes)

Lors du TP précédent, vous avez manipulé une base de données comportant différentes sources d'informations concernant les lignées d'Arabettes analysées en traitement d'images. Dans le cadre du présent TP, vous allez analyser le tableau de données généré à partir de la base de donnée, avec le logiciel d'analyses statistiques R.

Créer un répertoire de travail sur le bureau (par exemple TP2) et téléchargez le fichier de données données TP3 (click droit de la souris -- enregistrer la cible sous...). . Ouvrez le logiciel R, changez le répertoire courant vers le répertoire contenant le fichier de données.

Lecture et exploration du tableau de données

Lecture:

arabido=read.table("data_TP3.txt", sep="\t", header=TRUE)

Accéder directement aux variables simplement en donnant leurs noms:

attach(arabido)
names(arabido)

Quel est la taille du fichier ? Utilisez la fonction dim(). Combien y-a-t-il de variables ? Repérez les variables quantitatives (numériques) et les variables qualitatives ("facteurs")


Graphiques

  • Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et le nombre de racines latérales.
  • Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et la longitude; de même avec la latitude.
  • Réalisez un graphique permettant de visualiser l'effet de la présence/absence naturelle de la bactérie dans le pays d'origine des plantes, sur la surface foliaire.

Utilisez les commandes plot() [exemple plot(x,y)] et boxplot( )[exemple boxplot(y~x)] pour réaliser ces graphiques.

Que remarquez vous?


Calculs de corrélations

  • calculez 2 à 2 le coefficient de corrélation entre la surface des feuilles, le nombre de racines latérales, la latitude, la longitude.

Que remarquez vous?

Tests statistiques de corrélation/associations entre les valeurs phénotypiques des individus et leurs génotypes aux marqueurs moléculaires

  • Réalisez un test de comparaison des valeurs moyennes de la surface des feuilles pour les groupes alléliques à chaque marqueur (test de Student). Pour cela, utilisez la commande t.test().

Utilisez la boucle suivante pour programmer une série de tests de Student sur différentes colonnes du tableau, et récupérer la p-value de chaque test.

pval=c()
for (i in c(8:15)) {
pval[i-8+1]=unlist(t.test(Leaf_area~data[,i])[3])
}
data.frame(colnames(data)[8:15],pval)

Que concluez-vous de ces analyses statistiques?

  • Réalisez le même test mais avec le nombre de racines latérales

Que remarquez-vous?


  • Réalisez maintenant un test statistique de corrélation entre les valeurs phénotypiques (surface des feuilles, puis nombre de racines latérales) et le génotype aux marqueurs moléculaires multialléliques (2 marqueurs SSR)

Pour cela, utilisez les commandes cor() et cor.test().

Que concluez-vous de ces analyses statistiques? Donnez une explication aux résultats observés, sachant que le marqueur SSR1 (non codant) se situe à 2000 bp du locus At5g46330, et que les autres marqueurs sont situés sur d'autres chromosomes.


  • Réalisez enfin des graphiques permettant de visualiser les corrélations phénotype / génotype pour les marqueurs significativement associés aux valeurs phénotypiques desurface des feuilles, et du nombre de racines latérales (utilisez les commandes plot() et boxplot().




Liens