silico.biotoul.fr
 

L2-L3 Bioinfo - TP Analyses statistiques des données (phénotypes,génotypes)

From silico.biotoul.fr

Revision as of 14:12, 26 January 2017 by Bonhomme (Talk | contribs)
Jump to: navigation, search

Contents

Analyses statistiques des données (phénotypes,génotypes)

Lors du TP précédent, vous avez manipulé une base de données comportant différentes sources d'informations concernant les lignées d'Arabettes analysées en traitement d'images. Dans le cadre du présent TP, vous allez analyser le tableau de données généré à partir de la base de donnée, avec le logiciel d'analyses statistiques R.

Créer un répertoire de travail sur le bureau (par exemple TP2) et téléchargez le fichier de données données TP3 (click droit de la souris -- enregistrer la cible sous...). . Ouvrez le logiciel R, changez le répertoire courant vers le répertoire contenant le fichier de données.

Lecture et exploration du tableau de données

Lecture:

arabido=read.table("data_TP3.txt", sep="\t", header=TRUE)

Accéder directement aux variables simplement en donnant leurs noms:

attach(arabido)
names(arabido)

Quel est la taille du fichier ? Utilisez la fonction dim(). Combien y-a-t-il de variables ? Repérez les variables quantitatives (numériques) et les variables qualitatives ("facteurs")?


Graphiques

- Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et le nombre de racines latérales. - Réalisez un graphique permettant de visualiser la corrélation entre la surface des feuilles et la longitude; de même avec la latitude. - Réalisez un graphique permettant de visualiser l'effet de la présence/absence naturelle de la bactérie dans le pays d'origine des plantes, sur la surface foliaire. Utilisez les commandes plot() [exemple plot(x,y)] et boxplot [exemple boxplot(y~x)] pour réaliser ces graphiques.

Que remarquez vous?


Calculs de corrélation

- calculez 2 à 2 le coefficient de corrélation entre la surface des feuilles, le nombre de racines latérales, la latitude, la longitude. Que remarquez vous?


es corrélations entre les variables numériques. Utilisez la commande plot() [exemple plot(x,y)]. Réalisez des graphiques permettant de visualiser les corrélations entre les variables numériques. Utilisez la commande plot() [exemple plot(x,y)].


Faire un graphique:

plot(Genome_size,ORF_number,pch=16)

Quantifier la relation entre ces 2 variables:

  • covariance
cov(Genome_size,ORF_number)
  • coefficient de corrélation r de Pearson
cor(Genome_size,ORF_number)

Régression

Calculer une fonction linéaire qui relie les 2 variables, avec la commande lm() :

lm(ORF_number ~ Genome_size) # remarque: c'est une régression de "y" sur "x", d'où lm(y~x)

Gardons en mémoire le résultat de la régression:

reglin=lm(ORF_number ~ Genome_size)

On peut vérifier la significativité des coefficients de la droite avec:

summary(reglin)

Quelle est l'équation de la droite de régression ?

Calculez le coefficient de détermination R2 (% de variance expliquée par le modèle linéaire ==> bien si > 70%):

cor(Genome_size,ORF_number)^2 #(stocké aussi dans summary(reglin))

Représenter le nuage de points avec la droite de régression:

plot(Genome_size,ORF_number,pch=16)			
abline(reglin,col="red",lwd=2)

Ajoutez ces parties à votre compte rendu.


Liens

Chargement des données avec l'adresse des fichiers

genomes=read.table("http://silico.biotoul.fr/site/images/d/de/Bacterial_genomes.txt", sep="\t", header=TRUE)
sequoia=read.table("http://silico.biotoul.fr/site/images/e/e1/Sequoia.txt", sep="\t", header=TRUE)
tomates=read.table("http://silico.biotoul.fr/site/images/3/3d/Tomates_cerises.txt", sep="\t", header=TRUE)