silico.biotoul.fr
 

M1 Traitement de Donnees Biologiques - TP Intro R

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m
m
Line 9: Line 9:
-
<span style='color: blue'>Commencez par télécharger le fichier source que vous allez utiliser et compléter pour générer le compte rendu de TP : [[Media:M1.TDB.TP_introduction_R.Rmd|M1.TDB.TP_introduction_R.Rmd]] (click droit de la souris -- enregistrer la cible sous...).</span>
+
<span style='color: blue'>Créer un répertoire de travail sur le bureau (par exemple <tt>TDB-TP1_introduction</tt>) et commencez par télécharger le fichier source que vous allez utiliser et compléter pour générer le compte rendu de TP : [[Media:M1.TDB.TP_introduction_R.Rmd|M1.TDB.TP_introduction_R.Rmd]] (click droit de la souris -- enregistrer la cible sous...).</span>
<span style='color: blue'>Ouvrez le logiciel RStudio et chargez ce fichier puis lancez sa compilation pour voir le rendu comme dans la capture d'écran ci-dessus. Pour cela cliquez sur le bouton '''Knit HTML''' ou bien utilisez la combinaison de touches <tt>Ctrl + shift + K</tt>.</span>
<span style='color: blue'>Ouvrez le logiciel RStudio et chargez ce fichier puis lancez sa compilation pour voir le rendu comme dans la capture d'écran ci-dessus. Pour cela cliquez sur le bouton '''Knit HTML''' ou bien utilisez la combinaison de touches <tt>Ctrl + shift + K</tt>.</span>

Revision as of 17:06, 23 August 2016

Au cours de ce TP, nous allons utiliser le logiciel R à travers une interface particulière : RStudio. Cette interface permet d'éditer des scripts en R ainsi qu'en langage Markdown que nous allons utiliser pour la rédaction de rapports scientifiques. L'interface se compose en plusieurs parties (cf. capture d'écran ci-dessous) :

  • en haut à gauche : édition de fichiers et scripts, et visualisation des données tabulées
  • en bas à gauche : exécution de code R dans une console
  • en haut à droite : les objets et variables chargés en mémoire
  • en bas à droite : plusieurs onglets : accès aux fichiers, graphiques, librairies disponibles, aide, et visualiseur de rapports scientifiques

Image:M1.TDB.RStudio-screenshot.jpg


Créer un répertoire de travail sur le bureau (par exemple TDB-TP1_introduction) et commencez par télécharger le fichier source que vous allez utiliser et compléter pour générer le compte rendu de TP : M1.TDB.TP_introduction_R.Rmd (click droit de la souris -- enregistrer la cible sous...).

Ouvrez le logiciel RStudio et chargez ce fichier puis lancez sa compilation pour voir le rendu comme dans la capture d'écran ci-dessus. Pour cela cliquez sur le bouton Knit HTML ou bien utilisez la combinaison de touches Ctrl + shift + K.

Vous verrez que si la compilation est réussie, un fichier M1.TDB.TP_introcution_R.html va être généré dans le même répertoire que le fichier M1.TDB.TP_introduction_R.Rmd que vous avez téléchargé.


Utilisation et calculs avec du code R

```{r}

  1. Téléchargements: R, Rstudio (requires R2.11.1)
  2. http://www.r-project.org/
  3. https://www.rstudio.com/home/
  1. Démarrer une session / charger un script
  2. Créer un répertoire de travail sur le bureau, dans lequel se trouvent
  3. les fichiers de données et les fichiers que vous allez éventuellement éditer avec R.
  4. - Lancer Rstudio --> Session --> set working directory --> aller jusqu'au dossier de travail
  5. - ouvrir un script (déjà présent dans le répertoire) ou "new script"
  6. - attente de commande: control R pour copier-coller la commande
  7. - # = insérer des commentaires
  8. - flèches haut et bas = naviguer dans les commandes déjà lancées
  1. Obtenir de l'aide sur une fonction
  2. onglet HELP
  3. sous R, on tape par exemple ?mean
  1. Calculs et Objets de stockage sous R
  2. calculer la somme des 3 premiers entiers naturels

1+2+3

  1. calculer la fonction exponentielle du nombre 10

exp(10)

  1. créer un objet que vous nommerez "my_object", et qui contient la commande précédente

my_object = exp(10)

  1. logique: "est-ce que mon objet est égal/différent de 2"?

my_object == 2 my_object != 2

  1. un objet peut contenir du texte

my_object="biology" my_object

  1. Vecteurs: création, exploration et manipulation
  2. créez un vecteur "x" contenant les valeurs 2,3,5,8,4,6 rassemblées avec la commande c()

x = c(2,3,5,8,4,6) ; x

  1. donnez sa longueur avec la commande length

length(x)

  1. affichez la deuxième valeur de x (utiliser x[])

x[2]

  1. exploration suivant un critère: oui/non; indices; valeurs

x>4;which(x>4);x[x>4]

  1. donner l'inverse de x

1/x

  1. Importation de tableaux de données sous R
  2. au préalable, on rentre les données sous excel
  3. on enregistre en format "txt, séparateur = tabulation""
  4. éviter de mettre des espaces dans les noms de variables, ainsi que des accents
  1. sous R:
  2. on utilise la fonction "read.table":
  3. - on spécifie s'il y a un en-tête (nom des variables en première ligne): "header=T" (header="en-tête")
  4. - on spécifie le séparateur (sep=" ": espace, sep=";": point-virgule, sep="\t": tabulation)
  5. - si la décimale est une virgule alors dec=","
  1. on ouvre le fichier "croissance_plantes.txt":

croissance = read.table("croissance_plantes.txt", sep="\t",header=TRUE)

  1. on affiche le tableau

croissance

  1. pour pouvoir ensuite accéder aux variables simplement en donnant leurs noms

attach(croissance)

  1. pour afficher les noms des variables

names(croissance)

  1. Exportation d'objets R
  2. nous souhaitons par exemple exporter une partie du tableau précédent
  3. ==> les données relatives aux "pyrénées"

my_data=croissance[origine_geo=="pyr",]

  1. on exporte avec la fonction

write.table(my_data,"my_data_exported.txt",quote=F,col.names= T,row.names = F, sep = "\t")

  1. Statistiques basiques sur une variable qualitative
  2. nombre d'individus par catégorie

summary(origine_geo)

  1. Fonction graphique sur une variable qualitative
  2. nombre d'individus par catégorie

pie(summary(origine_geo),main="origines géographique des plantes") barplot(summary(origine_geo),main="origines géographique des plantes",las=3)

  1. Statistiques basiques sur une variable quantitative
  2. moyenne, variance (correction "n-1"), écart-type

mean(taille); var(taille); sd(taille)

  1. valeur minimale, maximale

min(taille); max(taille)

  1. quantiles

median(taille); quantile(taille); quantile(taille,c(0.5,0.95,0.99))

  1. la commande summary() résume l'objet

summary(taille)

  1. Fonction graphique sur une variable quantitative
  2. distribution de la taille des plantes récoltées, sur des graphiques séparés
  3. découper une fenêtre graphique (ici: "2 lignes, 2 colonnes") pour positionner plusieurs graphiques

par(mfrow=c(2,2)) hist(taille,xlim=c(40,90),xlab="taille (cm)",ylab="fréquence",freq=T,main="histogramme de la taille des plantes",col="orange") boxplot(taille,main="boxplot de la taille des plantes",ylab="taille") plot(taille~origine_geo,las=3) stripchart(taille~origine_geo,las=1)

  1. Fonction graphique sur deux variables quantitatives mesurées sur les mêmes individus
  2. nuage de points: taille versus poids

x11() # nouvelle fenêtre graphique plot(taille,poids,col="red",pch=20)

  1. Sauvegarde et/ou exportation d'un graphique
  2. dans l'onglet plot, au choix:
  3. - Copy to Clipboard ==> coller dans word/powerpoint.
  4. - Save as Image (TIFF,JPEG,...)
  5. - Save as PDF
  1. exportez le graphique précédent


```