silico.biotoul.fr
 

Atelier Phylogénomique Phylogénie ARNr

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Annotation des ARNr)
m (Alignements des ARNr)
Line 77: Line 77:
ssu
ssu
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
search_module mafft
 +
srun --pty bash
srun --pty bash
module load bioinfo/mafft-7.313
module load bioinfo/mafft-7.313

Revision as of 14:29, 15 October 2021

Contents

Liens

Introduction

Question 4.1:
Quel-est l’intérêt de réaliser des arbres avec les séquences de l'ARNr? Quels-sont les ARNr présents dans les génomes de procaryotes? A quelle(s) sous-unité(s) ribosomique sont-ils associés?

Annotation des ARNr

Nous utilisons le logiciel rnammer pour annoter les ARNr (lsu, ssu, tsu) dans les génomes.

search_module rnammer
srun --pty bash
module load bioinfo/rnammer-1.2
rnammer -S bac -m ssu -f ~/work/Prochlorococcus/prokka/Aaaa/Aaaa_ssu.rrna < /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaaa.fas

Vous allez procéder comme précédemment, avec un script donné à sarray, pour réaliser le rnammer sur tous les fichiers et les trois types d'ARNr.

MSK

sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 rnammer.sh
squeue -l -u $USER

Vérifiez que les fichiers de sortie ne sont pas vide!

ls -l ~/work/*/prokka/Aaa*/Aaa*su*.rrna

Concaténer les fichiers:

mkdir ~/work/ProchlorococcusSynechococcus/rRNA
cat ~/work/Prochlorococcus/prokka/Aaa*/Aaa*lsu.rrna ~/work/Synechococcus/prokka/Aaa*/Aaa*lsu.rrna > ~/work/ProchlorococcusSynechococcus/rRNA/lsu.fas
cat ~/work/Prochlorococcus/prokka/Aaa*/Aaa*ssu.rrna ~/work/Synechococcus/prokka/Aaa*/Aaa*ssu.rrna > ~/work/ProchlorococcusSynechococcus/rRNA/ssu.fas
cat ~/work/Prochlorococcus/prokka/Aaa*/Aaa*tsu.rrna ~/work/Synechococcus/prokka/Aaa*/Aaa*tsu.rrna > ~/work/ProchlorococcusSynechococcus/rRNA/tsu.fas
Question 4.2:
Combien de gènes codant pour les gènes d'ARNr sont prédits dans les différentes souches?
Commentez.

Alignements des ARNr

Mafft comporte deux options, Q-INS-i et X-INS-i, dans lesquelles les informations de structure secondaire de l'ARN sont prises en compte. Ces méthodes sont adaptées à un alignement global de séquences d'ARNc très divergentes. Pour les ARN relativement conservés, tels que les ARNr SSU et LSU, l'avantage de ces méthodes est faible (Katoh et al., 2103). Nous utilisons la version mafft pour des raisons de rapidités.

ssu

search_module mafft

srun --pty bash
module load bioinfo/mafft-7.313
mafft  --globalpair ~/work/ProchlorococcusSynechococcus/rRNA/ssu.fas > ~/work/ProchlorococcusSynechococcus/rRNA/ssu.aln

lsu

srun --pty bash
module load bioinfo/mafft-7.313
mafft  --globalpair --thread 1 ~/work/ProchlorococcusSynechococcus/rRNA/lsu.fas > ~/work/ProchlorococcusSynechococcus/rRNA/lsu.aln

tsu

srun --pty bash
module load bioinfo/mafft-7.313
mafft --globalpair ~/work/ProchlorococcusSynechococcus/rRNA/tsu.fas > ~/work/ProchlorococcusSynechococcus/rRNA/tsu.aln
Question 4.3:
Pensez-vous que les alignements auraient été de meilleure qualité avec mafft-qinsi et l'option --maxiterate 1000?

Arbre avec seaview

Utilisez le logiciel seaview pour calculer les arbres avec les trois types ARNr.

Expérimentez plusieurs méthodes avec différents paramètres.

Question 4.4:
Comparez les résultats obtenus.

Éditez les fichiers pour ne retenir qu'une seule copie de chaque gènes par souche. Renommer les séquences par le code à quatre lettres.

Concaténez les trois types d'ARNr et calculer l'arbre avec la méthode de votre choix.

Discutez ces résultats.

Code R pour obtenir une illustration des réarrangements présents entre deux arbres (source: phytools blog).

library('phytools')
ta <-read.tree(file='all_mod-PhyML_tree.ph')
tl <-read.tree(file='lsu_mod-PhyML_tree.ph')
ts <-read.tree(file='ssu_mod-PhyML_tree.ph')

plot.cophylo(cophylo(ta,tl,rotate=TRUE),fsize=0.7, link.type="curved", link.col="blue")
plot.cophylo(cophylo(ta,ts,rotate=TRUE),fsize=0.7, link.type="curved", link.col="blue")

Arbre SSU avec IQ-TREE

IQ-tree doc.

IQ-TREE utilise ModelFinder (Kalyaanamoorthy et al., 2017) pour sélectionner le meilleur modèle adaptés aux données.

Pour seulement trouver le modèle le mieux adapté sans faire de reconstruction d'arbre, utilisez :

module load bioinfo/iqtree-1.6.7
iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy  -m MF -redo -AIC

Les résultats sont dans le fichier : ssu_renamed_simplified.phy.iqtree.

grep 'Best-fit model' ssu_renamed_simplified.phy.iqtree

lsu ssu GTR+F+R2 tsu K2P+G4

dna-models

Évaluation des supports de branches avec approximation bootstrap ultra-rapide (UFBoot):

iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy  -pre ssuGTRFR2bb1000bnni -m GTR+F+R2 -bb 1000 -redo -bnni -nt AUTO"

NOTE: les valeurs de support de l'UFBoot ont des interprétations différentes de celles du bootstrap non paramétrique. Suivez le lien UFBoot support values interpretation pour plus d'information.

Évaluer les supports de branche avec des tests de branche simple :

IQ-TREE propose le test du rapport approximatif de vraisemblance de type SH (Guindon et al., 2010).

iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy -pre ssuGTRFR2bbalrt -m GTR+F+R2 -bb 1000 -alrt 1000 -redo -nt AUTO"

Évaluation des supports de branche avec un bootstrap non paramétrique standard :

iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy -pre ssuGTRFR2alrtb -m GTR+F+R2 -alrt 1000 -b 100 -redo -nt AUTO"

Arbre SSU avec FastTree

FastTree doc.

module load bioinfo/FastTree-2.1.10
fasttree -nt -gtr < ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy > ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified_fasttree.ph 

Comparez et commentez les résultats obtenus avec IQ-TREE et FastTree.