silico.biotoul.fr
 

L2-L3 Bioinfo - TP Analyses statistiques des données (phénotypes,génotypes)

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
Line 24: Line 24:
Quel est la taille du fichier ? Utilisez la fonction dim().
Quel est la taille du fichier ? Utilisez la fonction dim().
Combien y-a-t-il de variables ?
Combien y-a-t-il de variables ?
-
Repérez les variables quantitatives (numériques) et les variables qualitatives ("facteurs")?
+
Repérez les variables quantitatives (numériques) et les variables qualitatives ("facteurs")
</span>
</span>
Line 33: Line 33:
- Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et la longitude; de même avec la latitude.
- Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et la longitude; de même avec la latitude.
- Réalisez un graphique permettant de visualiser l'effet de la présence/absence naturelle de la bactérie dans le pays d'origine des plantes, sur la surface foliaire.
- Réalisez un graphique permettant de visualiser l'effet de la présence/absence naturelle de la bactérie dans le pays d'origine des plantes, sur la surface foliaire.
-
Utilisez les commandes plot() [exemple plot(x,y)] et boxplot [exemple boxplot(y~x)] pour réaliser ces graphiques.
+
Utilisez les commandes plot() [exemple plot(x,y)] et boxplot( )[exemple boxplot(y~x)] pour réaliser ces graphiques.
<span style='color: #990000'>
<span style='color: #990000'>
Line 40: Line 40:
-
== Calculs de corrélation ==
+
== Calculs de corrélations ==
- calculez 2 à 2 le coefficient de corrélation entre la surface des feuilles, le nombre de racines latérales, la latitude, la longitude.
- calculez 2 à 2 le coefficient de corrélation entre la surface des feuilles, le nombre de racines latérales, la latitude, la longitude.
Line 47: Line 47:
</span>
</span>
 +
== Tests statistiques de corrélation/associations entre les valeurs phénotypiques des individus et leurs génotypes aux marqueurs moléculaires ==
-
es corrélations entre les variables numériques. Utilisez la commande plot() [exemple plot(x,y)].
+
- Réalisez un test de comparaison des valeurs moyennes de la surface des feuilles pour les groupes alléliques à chaque marqueur (test de Student). Pour cela, utilisez la commande t.test().
-
Réalisez des graphiques permettant de visualiser les corrélations entre les variables numériques. Utilisez la commande plot() [exemple plot(x,y)].
+
Utilisez la boucle suivante pour programmer une série de tests de Student sur différentes colonnes du tableau, et récupérer la p-value de chaque test.
-
 
-
 
-
Faire un graphique:
 
<source lang='rsplus'>
<source lang='rsplus'>
-
plot(Genome_size,ORF_number,pch=16)
+
pval=c()
 +
for (i in c(8:15)) {
 +
pval[i-8+1]=unlist(t.test(Leaf_area~data[,i])[3])
 +
}
 +
data.frame(colnames(data)[8:15],pval)
</source>
</source>
-
Quantifier la relation entre ces 2 variables:
+
<span style='color: #990000'>
-
* covariance
+
Que concluez-vous de ces analyses statistiques?
-
<source lang='rsplus'>
+
</span>
-
cov(Genome_size,ORF_number)
+
-
</source>
+
-
* coefficient de corrélation ''r'' de Pearson
+
-
<source lang='rsplus'>
+
-
cor(Genome_size,ORF_number)
+
-
</source>
+
-
== Régression ==
+
- Réalisez le même test mais avec le nombre de racines latérales
 +
<span style='color: #990000'>
 +
Que remarquez-vous?
 +
</span>
-
<span style='color: #990000;'>
 
-
Calculer une fonction linéaire qui relie les 2 variables, avec la commande <tt>lm()</tt>
 
-
</span>:
 
-
<source lang='rsplus'>
 
-
lm(ORF_number ~ Genome_size) # remarque: c'est une régression de "y" sur "x", d'où lm(y~x)
 
-
</source>
 
-
Gardons en mémoire le résultat de la régression:
+
- Réalisez maintenant un test statistique de corrélation entre les valeurs phénotypiques (surface des feuilles, puis nombre de racines latérales) et le génotype aux marqueurs moléculaires multialléliques (2 marqueurs SSR)  
-
<source lang='rsplus'>
+
Pour cela, utilisez les commandes cor() et cor.test().
-
reglin=lm(ORF_number ~ Genome_size)
+
-
</source>
+
-
On peut vérifier la significativité des coefficients de la droite avec:
+
<span style='color: #990000'>
-
<source lang='rsplus'>
+
Que concluez-vous de ces analyses statistiques?
-
summary(reglin)
+
Donnez une explication aux résultats observés, sachant que le marqueur SSR1 (non codant) se situe à 2000 bp du locus At5g46330, et que les autres marqueurs sont situés sur d'autres chromosomes.
-
</source>
+
-
 
+
-
<span style='color: #990000;'>
+
-
Quelle est l'équation de la droite de régression ?
+
</span>
</span>
-
Calculez le coefficient de détermination R2 (% de variance expliquée par le modèle linéaire ==> bien si > 70%):
 
-
<source lang='rsplus'>
 
-
cor(Genome_size,ORF_number)^2 #(stocké aussi dans summary(reglin))
 
-
</source>
 
-
Représenter le nuage de points avec la droite de régression:
+
- Réalisez enfin des graphiques permettant de visualiser les corrélations phénotype / génotype pour les marqueurs significativement associés aux valeurs phénotypiques desurface des feuilles, et du nombre de racines latérales (utilisez les commandes plot() et boxplot().
-
<source lang='rsplus'>
+
 
-
plot(Genome_size,ORF_number,pch=16)
+
 
-
abline(reglin,col="red",lwd=2)
+
 
-
</source>
+
-
<span style='color: #990000;'>Ajoutez ces parties à votre compte rendu.</span>
 
= Liens =
= Liens =
-
 
* Site de R : http://www.r-project.org et sites miroirs (dont ceux en France) pour télécharger le logiciel et les librairies : https://cran.r-project.org/mirrors.html
* Site de R : http://www.r-project.org et sites miroirs (dont ceux en France) pour télécharger le logiciel et les librairies : https://cran.r-project.org/mirrors.html
* RStudio : https://www.rstudio.com
* RStudio : https://www.rstudio.com
-
* Utilisation de R depuis un navigateur : http://www.r-fiddle.org
 
-
Chargement des données avec l'adresse des fichiers
 
-
<source lang='rsplus'>
 
-
genomes=read.table("http://silico.biotoul.fr/site/images/d/de/Bacterial_genomes.txt", sep="\t", header=TRUE)
 
-
sequoia=read.table("http://silico.biotoul.fr/site/images/e/e1/Sequoia.txt", sep="\t", header=TRUE)
 
-
tomates=read.table("http://silico.biotoul.fr/site/images/3/3d/Tomates_cerises.txt", sep="\t", header=TRUE)
 
-
</source>
 

Revision as of 14:29, 26 January 2017

Contents

Analyses statistiques des données (phénotypes,génotypes)

Lors du TP précédent, vous avez manipulé une base de données comportant différentes sources d'informations concernant les lignées d'Arabettes analysées en traitement d'images. Dans le cadre du présent TP, vous allez analyser le tableau de données généré à partir de la base de donnée, avec le logiciel d'analyses statistiques R.

Créer un répertoire de travail sur le bureau (par exemple TP2) et téléchargez le fichier de données données TP3 (click droit de la souris -- enregistrer la cible sous...). . Ouvrez le logiciel R, changez le répertoire courant vers le répertoire contenant le fichier de données.

Lecture et exploration du tableau de données

Lecture:

arabido=read.table("data_TP3.txt", sep="\t", header=TRUE)

Accéder directement aux variables simplement en donnant leurs noms:

attach(arabido)
names(arabido)

Quel est la taille du fichier ? Utilisez la fonction dim(). Combien y-a-t-il de variables ? Repérez les variables quantitatives (numériques) et les variables qualitatives ("facteurs")


Graphiques

- Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et le nombre de racines latérales. - Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et la longitude; de même avec la latitude. - Réalisez un graphique permettant de visualiser l'effet de la présence/absence naturelle de la bactérie dans le pays d'origine des plantes, sur la surface foliaire. Utilisez les commandes plot() [exemple plot(x,y)] et boxplot( )[exemple boxplot(y~x)] pour réaliser ces graphiques.

Que remarquez vous?


Calculs de corrélations

- calculez 2 à 2 le coefficient de corrélation entre la surface des feuilles, le nombre de racines latérales, la latitude, la longitude. Que remarquez vous?

Tests statistiques de corrélation/associations entre les valeurs phénotypiques des individus et leurs génotypes aux marqueurs moléculaires

- Réalisez un test de comparaison des valeurs moyennes de la surface des feuilles pour les groupes alléliques à chaque marqueur (test de Student). Pour cela, utilisez la commande t.test(). Utilisez la boucle suivante pour programmer une série de tests de Student sur différentes colonnes du tableau, et récupérer la p-value de chaque test.

pval=c()
for (i in c(8:15)) {
pval[i-8+1]=unlist(t.test(Leaf_area~data[,i])[3])
}
data.frame(colnames(data)[8:15],pval)

Que concluez-vous de ces analyses statistiques?

- Réalisez le même test mais avec le nombre de racines latérales Que remarquez-vous?


- Réalisez maintenant un test statistique de corrélation entre les valeurs phénotypiques (surface des feuilles, puis nombre de racines latérales) et le génotype aux marqueurs moléculaires multialléliques (2 marqueurs SSR) Pour cela, utilisez les commandes cor() et cor.test().

Que concluez-vous de ces analyses statistiques? Donnez une explication aux résultats observés, sachant que le marqueur SSR1 (non codant) se situe à 2000 bp du locus At5g46330, et que les autres marqueurs sont situés sur d'autres chromosomes.


- Réalisez enfin des graphiques permettant de visualiser les corrélations phénotype / génotype pour les marqueurs significativement associés aux valeurs phénotypiques desurface des feuilles, et du nombre de racines latérales (utilisez les commandes plot() et boxplot().




Liens