silico.biotoul.fr
 

Atelier Phylogénomique Phylogénie ARNr

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Liens)
m (Liens)
Line 1: Line 1:
==Liens==
==Liens==
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Phylog.C3.A9nie_bas.C3.A9e_sur_les_s.C3.A9quences_des_ARNr Phylogénie ARNr]
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Phylog.C3.A9nie_bas.C3.A9e_sur_les_s.C3.A9quences_des_ARNr Phylogénie ARNr]
 +
==Introduction==
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 4.1:
 +
Quel-est l’intérêt de réaliser des arbres avec les séquences de l'ARNr? Quels-sont les ARNr présents dans les génomes de procaryotes? A quelle(s) sous-unité(s) ribosomique sont-ils associés?
 +
</pre>
 +
<!--
 +
    La grande sous-unité ribosomique 50S des procaryotes contient les ARNr suivants :
 +
        ARNr 23S (2904 nucléotides chez E. coli1) ;
 +
        ARNr 5S ; il n'est pas lié à l'ARNr 23S.
 +
 +
    La petite sous-unité ribosomique 30S contient l'ARNr suivant :
 +
        ARNr 16S (1541 nucléotides chez E. coli2).
 +
-->
 +
 +
Suivre : [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique_Phylog%C3%A9nie_ARNr Phylogénie ARNr]
 +
 +
==Annotation des ARNr==
 +
Nous utilisons le logiciel ''rnammer'' pour annoter les ARNr (lsu, ssu, tsu) dans les génomes.
 +
 +
<pre style="color:green;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
search_module rnammer
 +
srun --pty bash
 +
module load bioinfo/rnammer-1.2
 +
rnammer -S bac -m ssu -f ~/work/Prochlorococcus/prokka/Aaaa/Aaaa_ssu.rrna < /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaaa.fas
 +
</pre>
 +
Vous allez procéder comme précédemment, avec un script donné à ''sarray'', pour réaliser le rnammer sur tous les fichiers et les trois types d'ARNr.
 +
 +
MSK
 +
<syntaxhighlight lang="bash">
 +
for s in Prochlorococcus Synechococcus
 +
do
 +
  for t in ssu lsu tsu
 +
  do 
 +
    for i in /home/formation/public_html/M2_Phylogenomique/data/$s/DNA/*.fas
 +
    do 
 +
      genome=$(basename "$i" .fas)
 +
      output="~/work/$s/prokka/"$genome"/"$genome"_"$t".rrna"
 +
      echo "module load bioinfo/rnammer-1.2; rnammer -S bac -m $t -f $output < $i;"
 +
    done
 +
  done
 +
done > rnammer.sh
 +
cat rnammer.sh
 +
</syntaxhighlight>
 +
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 rnammer.sh
 +
squeue -l -u <user>
 +
</pre>
 +
<!--
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
/home/formation/public_html/M2_Phylogenomique/scripts/rnammer_loop.pl --prokka_dir ~/work/Synechococcus/prokka --model ssu
 +
/home/formation/public_html/M2_Phylogenomique/scripts/rnammer_loop.pl --prokka_dir ~/work/Prochlorococcus/prokka --model ssu
 +
</pre>
 +
-->
 +
Vérifiez que les fichiers de sortie ne sont pas vide!
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
ls -l ~/work/*/prokka/Aaa*/Aaa*su*.rrna
 +
</pre>
 +
Concaténer les fichiers:
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
mkdir ~/work/ProchlorococcusSynechococcus/rRNA
 +
cat ~/work/Prochlorococcus/prokka/Aaa*/Aaa*lsu.rrna ~/work/Synechococcus/prokka/Aaa*/Aaa*lsu.rrna > ~/work/ProchlorococcusSynechococcus/rRNA/lsu.fas
 +
cat ~/work/Prochlorococcus/prokka/Aaa*/Aaa*ssu.rrna ~/work/Synechococcus/prokka/Aaa*/Aaa*ssu.rrna > ~/work/ProchlorococcusSynechococcus/rRNA/ssu.fas
 +
cat ~/work/Prochlorococcus/prokka/Aaa*/Aaa*tsu.rrna ~/work/Synechococcus/prokka/Aaa*/Aaa*tsu.rrna > ~/work/ProchlorococcusSynechococcus/rRNA/tsu.fas
 +
</pre>
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 4.2:
 +
Combien de gènes codant pour les gènes d'ARNr sont prédits dans les différentes souches?
 +
Commentez.
 +
</pre>
 +
 +
==Alignements des  ARNr==
 +
Mafft comporte deux options, Q-INS-i et X-INS-i, dans lesquelles les informations de structure secondaire de l'ARN sont prises en compte. Ces méthodes sont adaptées à un alignement global de séquences d'ARNc très divergentes. Pour les ARN relativement conservés, tels que les ARNr SSU et LSU, l'avantage de ces méthodes est faible ([https://academic.oup.com/mbe/article/30/4/772/1073398 Katoh ''et al.,'' 2103]). Nous utilisons la version ''mafft'' pour des raisons de rapidités.
 +
 +
ssu
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
srun --pty bash
 +
module load bioinfo/mafft-7.313
 +
mafft  --globalpair ~/work/ProchlorococcusSynechococcus/rRNA/ssu.fas > ~/work/ProchlorococcusSynechococcus/rRNA/ssu.aln
 +
</pre>
 +
lsu
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
srun --pty bash
 +
module load bioinfo/mafft-7.313
 +
mafft  --globalpair --thread 1 ~/work/ProchlorococcusSynechococcus/rRNA/lsu.fas > ~/work/ProchlorococcusSynechococcus/rRNA/lsu.aln
 +
</pre>
 +
tsu
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
srun --pty bash
 +
module load bioinfo/mafft-7.313
 +
mafft --globalpair ~/work/ProchlorococcusSynechococcus/rRNA/tsu.fas > ~/work/ProchlorococcusSynechococcus/rRNA/tsu.aln
 +
</pre>
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 4.3:
 +
Pensez-vous que les alignements auraient été de meilleure qualité avec mafft-qinsi et l'option --maxiterate 1000?
 +
</pre>
 +
 +
==Arbre avec seaview==
 +
Utilisez le logiciel seaview pour calculer les arbres avec les trois types ARNr.
 +
 +
Expérimentez plusieurs méthodes avec différents paramètres.
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 4.4:
 +
Comparez les résultats obtenus.
 +
</pre>
 +
Éditez les fichiers pour ne retenir qu'une seule copie de chaque gènes par souche.
 +
Renommer les séquences par le code à quatre lettres.
 +
 +
Concaténez les trois types d'ARNr et calculer l'arbre avec la méthode de votre choix.
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Discutez ces résultats.
 +
</pre>
 +
Code R pour obtenir une illustration des réarrangements présents entre deux arbres (source: [http://blog.phytools.org/2016/08/finding-association-between-two-trees.html phytools blog]).
 +
<pre style="color:purple;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
library('phytools')
 +
ta <-read.tree(file='all_mod-PhyML_tree.ph')
 +
tl <-read.tree(file='lsu_mod-PhyML_tree.ph')
 +
ts <-read.tree(file='ssu_mod-PhyML_tree.ph')
 +
 +
plot.cophylo(cophylo(ta,tl,rotate=TRUE),fsize=0.7, link.type="curved", link.col="blue")
 +
plot.cophylo(cophylo(ta,ts,rotate=TRUE),fsize=0.7, link.type="curved", link.col="blue")
 +
</pre>
 +
 +
==Arbre SSU avec IQ-TREE==
 +
[http://www.iqtree.org/doc/ IQ-tree] doc.
 +
 +
IQ-TREE utilise ModelFinder ([https://www.nature.com/articles/nmeth.4285 Kalyaanamoorthy et al., 2017]) pour sélectionner le meilleur modèle adaptés aux données.
 +
 +
Pour seulement trouver le modèle le mieux adapté sans faire de reconstruction d'arbre, utilisez :
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
module load bioinfo/iqtree-1.6.7
 +
iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy  -m MF -redo -AIC
 +
</pre>
 +
Les résultats sont dans le fichier : ssu_renamed_simplified.phy.iqtree.
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
grep 'Best-fit model' ssu_renamed_simplified.phy.iqtree
 +
</pre>
 +
lsu
 +
ssu GTR+F+R2
 +
tsu K2P+G4
 +
 +
[http://www.iqtree.org/doc/Substitution-Models#dna-models dna-models]
 +
 +
===Évaluation des supports de branches avec approximation bootstrap ultra-rapide (UFBoot):===
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy  -pre ssuGTRFR2bb1000bnni -m GTR+F+R2 -bb 1000 -redo -bnni -nt AUTO"
 +
</pre>
 +
NOTE: les valeurs de support de l'UFBoot ont des interprétations différentes de celles du bootstrap non paramétrique. Suivez le lien [http://www.iqtree.org/doc/Frequently-Asked-Questions#how-do-i-interpret-ultrafast-bootstrap-ufboot-support-values UFBoot support values interpretation] pour plus d'information.
 +
 +
===Évaluer les supports de branche avec des tests de branche simple :===
 +
IQ-TREE propose le test du rapport approximatif de vraisemblance de type SH ([https://academic.oup.com/sysbio/article/59/3/307/1702850 Guindon et al., 2010]).
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy -pre ssuGTRFR2bbalrt -m GTR+F+R2 -bb 1000 -alrt 1000 -redo -nt AUTO"
 +
</pre>
 +
 +
===Évaluation des supports de branche avec un bootstrap non paramétrique standard :===
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy -pre ssuGTRFR2alrtb -m GTR+F+R2 -alrt 1000 -b 100 -redo -nt AUTO"
 +
</pre>
 +
 +
==Arbre SSU avec FastTree==
 +
[http://www.microbesonline.org/fasttree/ FastTree] doc.
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
module load bioinfo/FastTree-2.1.10
 +
fasttree -nt -gtr < ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy > ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified_fasttree.ph
 +
</pre>
 +
Comparez et commentez les résultats obtenus avec IQ-TREE et FastTree.
----
----
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Phylog.C3.A9nie_bas.C3.A9e_sur_les_s.C3.A9quences_des_ARNr Phylogénie ARNr]
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Phylog.C3.A9nie_bas.C3.A9e_sur_les_s.C3.A9quences_des_ARNr Phylogénie ARNr]

Revision as of 14:20, 15 October 2021

Contents

Liens

Introduction

Question 4.1:
Quel-est l’intérêt de réaliser des arbres avec les séquences de l'ARNr? Quels-sont les ARNr présents dans les génomes de procaryotes? A quelle(s) sous-unité(s) ribosomique sont-ils associés?

Suivre : Phylogénie ARNr

Annotation des ARNr

Nous utilisons le logiciel rnammer pour annoter les ARNr (lsu, ssu, tsu) dans les génomes.

search_module rnammer
srun --pty bash
module load bioinfo/rnammer-1.2
rnammer -S bac -m ssu -f ~/work/Prochlorococcus/prokka/Aaaa/Aaaa_ssu.rrna < /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaaa.fas

Vous allez procéder comme précédemment, avec un script donné à sarray, pour réaliser le rnammer sur tous les fichiers et les trois types d'ARNr.

MSK

for s in Prochlorococcus Synechococcus
do
  for t in ssu lsu tsu
  do   
    for i in /home/formation/public_html/M2_Phylogenomique/data/$s/DNA/*.fas 
    do   
      genome=$(basename "$i" .fas)
      output="~/work/$s/prokka/"$genome"/"$genome"_"$t".rrna"
      echo "module load bioinfo/rnammer-1.2; rnammer -S bac -m $t -f $output < $i;" 
    done
  done
done > rnammer.sh
cat rnammer.sh
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 rnammer.sh
squeue -l -u <user>

Vérifiez que les fichiers de sortie ne sont pas vide!

ls -l ~/work/*/prokka/Aaa*/Aaa*su*.rrna

Concaténer les fichiers:

mkdir ~/work/ProchlorococcusSynechococcus/rRNA
cat ~/work/Prochlorococcus/prokka/Aaa*/Aaa*lsu.rrna ~/work/Synechococcus/prokka/Aaa*/Aaa*lsu.rrna > ~/work/ProchlorococcusSynechococcus/rRNA/lsu.fas
cat ~/work/Prochlorococcus/prokka/Aaa*/Aaa*ssu.rrna ~/work/Synechococcus/prokka/Aaa*/Aaa*ssu.rrna > ~/work/ProchlorococcusSynechococcus/rRNA/ssu.fas
cat ~/work/Prochlorococcus/prokka/Aaa*/Aaa*tsu.rrna ~/work/Synechococcus/prokka/Aaa*/Aaa*tsu.rrna > ~/work/ProchlorococcusSynechococcus/rRNA/tsu.fas
Question 4.2:
Combien de gènes codant pour les gènes d'ARNr sont prédits dans les différentes souches?
Commentez.

Alignements des ARNr

Mafft comporte deux options, Q-INS-i et X-INS-i, dans lesquelles les informations de structure secondaire de l'ARN sont prises en compte. Ces méthodes sont adaptées à un alignement global de séquences d'ARNc très divergentes. Pour les ARN relativement conservés, tels que les ARNr SSU et LSU, l'avantage de ces méthodes est faible (Katoh et al., 2103). Nous utilisons la version mafft pour des raisons de rapidités.

ssu

srun --pty bash
module load bioinfo/mafft-7.313
mafft  --globalpair ~/work/ProchlorococcusSynechococcus/rRNA/ssu.fas > ~/work/ProchlorococcusSynechococcus/rRNA/ssu.aln

lsu

srun --pty bash
module load bioinfo/mafft-7.313
mafft  --globalpair --thread 1 ~/work/ProchlorococcusSynechococcus/rRNA/lsu.fas > ~/work/ProchlorococcusSynechococcus/rRNA/lsu.aln

tsu

srun --pty bash
module load bioinfo/mafft-7.313
mafft --globalpair ~/work/ProchlorococcusSynechococcus/rRNA/tsu.fas > ~/work/ProchlorococcusSynechococcus/rRNA/tsu.aln
Question 4.3:
Pensez-vous que les alignements auraient été de meilleure qualité avec mafft-qinsi et l'option --maxiterate 1000?

Arbre avec seaview

Utilisez le logiciel seaview pour calculer les arbres avec les trois types ARNr.

Expérimentez plusieurs méthodes avec différents paramètres.

Question 4.4:
Comparez les résultats obtenus.

Éditez les fichiers pour ne retenir qu'une seule copie de chaque gènes par souche. Renommer les séquences par le code à quatre lettres.

Concaténez les trois types d'ARNr et calculer l'arbre avec la méthode de votre choix.

Discutez ces résultats.

Code R pour obtenir une illustration des réarrangements présents entre deux arbres (source: phytools blog).

library('phytools')
ta <-read.tree(file='all_mod-PhyML_tree.ph')
tl <-read.tree(file='lsu_mod-PhyML_tree.ph')
ts <-read.tree(file='ssu_mod-PhyML_tree.ph')

plot.cophylo(cophylo(ta,tl,rotate=TRUE),fsize=0.7, link.type="curved", link.col="blue")
plot.cophylo(cophylo(ta,ts,rotate=TRUE),fsize=0.7, link.type="curved", link.col="blue")

Arbre SSU avec IQ-TREE

IQ-tree doc.

IQ-TREE utilise ModelFinder (Kalyaanamoorthy et al., 2017) pour sélectionner le meilleur modèle adaptés aux données.

Pour seulement trouver le modèle le mieux adapté sans faire de reconstruction d'arbre, utilisez :

module load bioinfo/iqtree-1.6.7
iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy  -m MF -redo -AIC

Les résultats sont dans le fichier : ssu_renamed_simplified.phy.iqtree.

grep 'Best-fit model' ssu_renamed_simplified.phy.iqtree

lsu ssu GTR+F+R2 tsu K2P+G4

dna-models

Évaluation des supports de branches avec approximation bootstrap ultra-rapide (UFBoot):

iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy  -pre ssuGTRFR2bb1000bnni -m GTR+F+R2 -bb 1000 -redo -bnni -nt AUTO"

NOTE: les valeurs de support de l'UFBoot ont des interprétations différentes de celles du bootstrap non paramétrique. Suivez le lien UFBoot support values interpretation pour plus d'information.

Évaluer les supports de branche avec des tests de branche simple :

IQ-TREE propose le test du rapport approximatif de vraisemblance de type SH (Guindon et al., 2010).

iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy -pre ssuGTRFR2bbalrt -m GTR+F+R2 -bb 1000 -alrt 1000 -redo -nt AUTO"

Évaluation des supports de branche avec un bootstrap non paramétrique standard :

iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy -pre ssuGTRFR2alrtb -m GTR+F+R2 -alrt 1000 -b 100 -redo -nt AUTO"

Arbre SSU avec FastTree

FastTree doc.

module load bioinfo/FastTree-2.1.10
fasttree -nt -gtr < ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy > ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified_fasttree.ph 

Comparez et commentez les résultats obtenus avec IQ-TREE et FastTree.