silico.biotoul.fr
 

Atelier Phylogénomique Alignement Genomes

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Liens)
m (Liens)
Line 1: Line 1:
==Liens==
==Liens==
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Alignement_et_comparaison_de_g.C3.A9nomes_complets Alignement Genomes]
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Alignement_et_comparaison_de_g.C3.A9nomes_complets Alignement Genomes]
 +
 +
==Alignement et comparaison de génomes complets==
 +
 +
:'''Jeu de données'''
 +
 +
Vous pouvez retrouver les informations sur les 12 génomes de ''Prochlorococcus'' [http://www.m2p-bioinfo.ups-tlse.fr/p/Atelier_Phylog%C3%A9nomique#Caract.C3.A9ristiques_des_souches_.C3.A9tudi.C3.A9es ici] et les données dans le répertoire: /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/
 +
 +
Copiez les 12 génomes de ''Prochlorococcus'' dans un répertoire de votre ~/work, par exemple genomes_prochlo:
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
mkdir -p ~/work/Alignement_genomes/genomes_prochlo
 +
cp  /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/*.fas ~/work/Alignement_genomes/genomes_prochlo/
 +
ls ~/work/Alignement_genomes/genomes_prochlo/
 +
</pre>
 +
===Exploration de la diversité génomique à partir de l’ANI et des distances Mash===
 +
=====Diversité génomique basée sur l’ANI=====
 +
:'''Calculer l’ANI entre toutes les paires de génomes en utilisant la version basée sur [https://mummer4.github.io/ Mummer].''' http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/2018_supports/CoursAligntGenomes2018.pdf
 +
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
srun --pty bash
 +
module load system/Python-3.6.3
 +
module load bioinfo/mummer-4.0.0beta2
 +
average_nucleotide_identity.py -h
 +
 +
average_nucleotide_identity.py -v -i ~/work/Alignement_genomes/genomes_prochlo/ -o  ~/work/Alignement_genomes/genomes_ANIm_output/  --gformat png,pdf,eps,svg --write_excel -m ANIm
 +
</pre>
 +
 +
Exemple de script "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/RunSLURM_ANI.csh RunSLURM_ANI.csh]" (les chemins sont à changer):
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
sbatch RunSLURM_ANI.csh
 +
squeue -l -u <user>
 +
</pre>
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 2.1:
 +
Regardez les différents fichiers résultats.
 +
Regardez la couverture et le pourcentage d’identité des alignements et commentez les valeurs obtenues.
 +
Qu’en concluez-vous sur la diversité des génomes de Prochlorococcus ?
 +
</pre>
 +
 +
:'''Construire un arbre de Neighbor-Joining basé sur le ANI (ANIm_percentage_identity et ANIm_alignment_coverage) avec le logiciel de votre choix'''
 +
Vous pourrez par exemple utiliser la fonction ''nj'' du package R ''ape''. Notez que la commande ''nj'' prend en entrée une matrice de distance. La fonction ''heatmap'' ([https://www.r-graph-gallery.com/index.html r-graph-gallery]) peut être utile pour visualiser les relations entre les souches.
 +
 +
 +
<syntaxhighlight lang="python">
 +
id_file <- "work/Alignement_genomes/genomes_ANIm_output/ANIm_percentage_identity.tab"
 +
id_data <- read.table(file=id_file, header=T, row.names=1)
 +
heatmap(as.matrix(id_data), scale="none", symm=T, main="ANIm_percentage_identity")
 +
 +
co_file <- "work/Alignement_genomes/genomes_ANIm_output/ANIm_alignment_coverage.tab"
 +
co_data <- read.table(file=co_file, header=T, row.names=1)
 +
heatmap(as.matrix(co_data), scale="none", symm=T, main="ANIm_alignment_coverage")
 +
 +
id_nj <- nj(as.matrix(1-id_data))
 +
plot(id_nj, main="ANIm_percentage_identity")
 +
 +
co_nj <- nj(as.matrix(1-co_data))
 +
plot(co_nj, main="ANIm_alignment_coverage")
 +
</syntaxhighlight>
 +
<!--
 +
On pourra par exemple utiliser le site [http://www.phylogeny.fr/one_task.cgi?task_type=bionj phylogeny.fr] dans lequel on importera le fichier genomes_ANIm_output/ANIm_percentage_identity.tab (modifié en enlevant la 1ère ligne et en la remplaçant par le nombre de séquences 12).
 +
-->
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 2.2:
 +
Interprétez les résultats.
 +
</pre>
 +
 +
:'''Sélectionnez les génomes en ne gardant que le sous-groupe de 6 génomes qui ont au moins 28% de couverture avec tous les autres génomes (pour cela regardez le fichier ANIm_alignement_coverage.tab)'''
 +
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 2.3:
 +
Citez les.
 +
</pre>
 +
 +
=====Distance Mash entre les génomes=====
 +
Passez à l'étape suivante.
 +
<!--
 +
:'''Calculer la distance Mash entre toutes les paires de génomes'''
 +
 +
Documentation : [https://mash.readthedocs.io/en/latest/tutorials.html Mash]
 +
 +
En mode intéractif:
 +
<pre style="color:grey;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
srun --pty bash
 +
module load system/R-3.4.3 compiler/gcc-7.2.0
 +
module load bioinfo/Mash-2.1
 +
~/work/scripts/Mash_sketch.sh  ~/work/Alignement_genomes/genomes_prochlo/
 +
</pre>
 +
 +
Les résultats se trouvent dans le répertoire data_MashSketches/.
 +
 +
<pre style="color:grey;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
~/work/scripts/Mash_dist_allpairs.sh data_MashSketches/
 +
</pre>
 +
 +
Le résultat se trouve dans le fichier mash_dist.out
 +
 +
NB:
 +
* 1ère colonne: Jaccard index (~fraction de kmers partagés)
 +
* 2ème colonne : p-valeur
 +
* 3ème colonne : distance Mash (estimation du taux de mutation selon un modèle d'évolution simple)
 +
 +
<pre style="color:grey;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 2.4:
 +
Interprétez les résultats.
 +
Comparez les résultats de distance MASH à ceux de l’ANI.
 +
</pre>
 +
-->
 +
 +
===Alignements Mauve et ProgressiveMauve===
 +
<pre style="color:brown;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
NB : Commencez par lancer l’alignement ProgressiveMauve (environ 50-60 minutes de temps d’execution) avant de faire la question sur l'alignement Mauve !!!
 +
</pre>
 +
 +
=====Alignements Mauve d'un sous-ensemble de 6 génomes=====
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
mkdir -p ~/work/Alignement_genomes/cat_genomes_prochlo
 +
</pre>
 +
======Concaténer les 6 génomes sélectionnés à la question précédente dans un fichier multifasta======
 +
<!--
 +
<syntaxhighlight lang="bash">
 +
rm ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.fna
 +
rm ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gbk
 +
rm ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gff
 +
 +
for i in Aaab Aaag Aaaj Aaaf Aaak Aaae
 +
do
 +
echo $i
 +
cat ~/work/Alignement_genomes/genomes_prochlo/$i.fas >> ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.fna
 +
cat ~/work/Prochlorococcus/prokka/$i/$i.gbk >> ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gbk
 +
cat ~/work/Prochlorococcus/prokka/$i/$i.gff >> ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gff
 +
done
 +
</syntaxhighlight>
 +
-->
 +
MSK
 +
<!--
 +
<syntaxhighlight lang="bash">
 +
for i in Aaax  Aaay Aaaz
 +
do
 +
echo $i
 +
cat ~/work/Alignement_genomes/genomes_prochlo/$i.fas >> ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.fna
 +
cat ~/work/Prochlorococcus/prokka/$i/$i.gbk >> ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gbk
 +
done
 +
 +
grep -c '>' ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.fna
 +
grep -c 'LOCUS' ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gbk
 +
</syntaxhighlight>
 +
-->
 +
 +
======Lancement de l’alignement des 6 génomes sur le cluster SLURM======
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
mkdir ~/work/Alignement_genomes/Mauve
 +
cd ~/work/Alignement_genomes
 +
</pre>
 +
Exemple de script "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/RunSLURM_Mauve_6GProchlo.csh RunSLURM_Mauve_6GProchlo.csh]" (les chemins sont à changer):
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
sbatch RunSLURM_Mauve_6GProchlo.csh
 +
squeue -l -u <user>
 +
</pre>
 +
<!--
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
mkdir ~/work/Alignement_genomes/Mauve
 +
cd ~/work/Alignement_genomes
 +
srun --pty bash
 +
-->
 +
Exemple de la commande à lancer avec le fichier en format gbk
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
module load bioinfo/mauve_2.4.0
 +
mauveAligner --output=Mauve/6GC_Prochlorococcus_gbk.mauve_def --permutation-matrix-output=Mauve/6GC_Prochlorococcus_gbk.permutation_matrix --output-guide-tree=Mauve/6GC_Prochlorococcus_gbk.tree --output-alignment=Mauve/6GC_Prochlorococcus_gbk_mauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk
 +
</pre>
 +
<!--
 +
Soumission du job (vérifiez que vous êtes bien sur '''genologin2'''!):
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
sbatch --chdir=~/work/Alignement_genomes RunSLURM_Mauve_6GProchlo.csh
 +
</pre>
 +
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
#!/bin/bash
 +
#SBATCH --time=02:00:00 #job time limit
 +
#SBATCH -J testjob
 +
#SBATCH -o RunSLURM_Mauve_6GProclo.out
 +
#SBATCH -e RunSLURM_Mauve_6GProclo.err
 +
#SBATCH --mem=8G
 +
#SBATCH --cpus-per-task=4 #ncpu on the same node
 +
#SBATCH --mail-type=BEGIN,END,FAIL (email address is LDAP accounts)
 +
#Purge any previous modules
 +
module purge
 +
#Load the application
 +
module load bioinfo/mauve_2.4.0
 +
# My command lines I want to run on the cluster
 +
mauveAligner --output=/home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus.mauve_def --permutation-matrix-output=/home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus.permutation_matrix --output-guide-tree=/home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus.tree --output-alignment=/home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus_mauve.xmfa  /home/hchiapello/work/TP_M2_BIOINFO/TP_2018/6GC_Prochlorococcus.fna
 +
</pre>
 +
-->
 +
 +
======Analyser et interpréter les résultats en les visualisant via l’interface Mauve (commande Mauve)======
 +
Remarques:
 +
*dans le fichier ''Mauve/6GC_Prochlorococcus_gbk_mauve.xmfa'', le chemin du fichier gbk et relatif, penser à lancer Mauve dans le bon répertoire pour avoir les annotations des gènes.
 +
*lien entre le code et le nom de souche: [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/NCBI/species_strain_names.txt species_strain_names.txt]
 +
<pre>
 +
#FormatVersion Mauve1
 +
#Sequence1File cat_genomes_prochlo/6GC_Prochlorococcus.gbk
 +
#Sequence1Entry 1
 +
#Sequence1Format GenBank
 +
#Annotation1File cat_genomes_prochlo/6GC_Prochlorococcus.gbk
 +
...
 +
</pre>
 +
 +
======Exploration du contexte génomique======
 +
L'outil ''Sequence Navigator'' (les jumelles) permet de rechercher un ou plusieurs gènes sur différents critères. Nous allons utiliser cette fonctionnalité pour analyser le contexte génomique des gènes suivants. Les noms des gènes sont accessibles  par ''locus tag''. En vous plaçant sur le gène, vous avez ses annotations avec ''View Genbank...''. En quittant les jumelles, vous pouvez analyser la conservation du contexte à différentes échelles.
 +
<pre>
 +
Aaab.g_00239 Aaab.g_00820 Aaab.g_00825
 +
Aaag.g_00262 Aaag.g_00862 Aaag.g_00867
 +
Aaaj.g_00252 Aaaj.g_00786 Aaaj.g_00791
 +
Aaaf.g_00249 Aaaf.g_00782 Aaaf.g_00787
 +
Aaak.g_00251 Aaak.g_00834 Aaak.g_00839
 +
Aaae.g_00242 Aaae.g_00786 Aaae.g_00791
 +
</pre>
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 2.5:
 +
Combien y’a-t-il de LCB dans l’alignement ? Quel est leur poids minimal ? Y’a–t-il des réarrangements globaux dans l’alignement et si oui lesquels ? Décrire la structure de l’alignement. Que se passe-t-il si on fait varier le poids des LCB ?
 +
Qu'avez-vous appris de l'analyse du contexte génomique des gènes.
 +
</pre>
 +
 +
=====Alignement Progressive Mauve de l’ensemble complet des 6 génomes=====
 +
Afin de comparer les logiciels Mauve et ProgressiveMauve nous allons analyser l'ensemble de 6 génomes avec  ProgressiveMauve.
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
ls
 +
mkdir ~/work/Alignement_genomes/ProgressiveMauve
 +
cd ~/work/Alignement_genomes
 +
</pre>
 +
Créer un ficher .csh en prenant pour exemple le fichier "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/RunSLURM_PMauve_6GProchlo.csh RunSLURM_PMauve_6GProchlo.csh]"
 +
avec comme ligne de commande:
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
progressiveMauve --output=ProgressiveMauve/6GC_Prochlorococcus_PMauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk
 +
</pre>
 +
[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/Mauve Mauve]
 +
<!--
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"
 +
>mkdir ~/work/Alignement_genomes/ProgressiveMauve
 +
srun --pty bash
 +
module load bioinfo/mauve_2.4.0
 +
progressiveMauve --output=ProgressiveMauve/6GC_Prochlorococcus_PMauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk
 +
</pre>
 +
-->
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 2.6:
 +
Comparez et interprétez les résultats obtenus.
 +
</pre>
 +
 +
=====Alignement Progressive Mauve de l’ensemble complet des 12 génomes=====
 +
Concaténer les 12 génomes dans un fichier multifasta
 +
 +
MSK
 +
<!--
 +
<syntaxhighlight lang="bash">
 +
rm ~/work/Alignement_genomes/cat_genomes_prochlo/12GC_Prochlorococcus.fna
 +
rm ~/work/Alignement_genomes/cat_genomes_prochlo/12GC_Prochlorococcus.gbk
 +
for i in Aaaa Aaab Aaac Aaad Aaae Aaaf Aaag Aaah Aaai Aaaj Aaak Aaal
 +
do
 +
echo $i
 +
cat ~/work/Alignement_genomes/genomes_prochlo/$i.fas >> ~/work/Alignement_genomes/cat_genomes_prochlo/12GC_Prochlorococcus.fna
 +
cat ~/work/Prochlorococcus/prokka/$i/$i.gbk >> ~/work/Alignement_genomes/cat_genomes_prochlo/12GC_Prochlorococcus.gbk
 +
done
 +
 +
grep -c '>' ~/work/Alignement_genomes/cat_genomes_prochlo/12GC_Prochlorococcus.fna
 +
grep -c 'LOCUS' ~/work/Alignement_genomes/cat_genomes_prochlo/12GC_Prochlorococcus.gbk
 +
</syntaxhighlight>
 +
-->
 +
======Lancer l’alignement ProgressiveMauve des 12 génomes sur le cluster SLURM======
 +
Exemple de script "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/RunSLURM_PMauve_12GProchlo.csh RunSLURM_PMauve_12GProchlo.csh]" (les chemins sont à changer).
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
sbatch RunSLURM_PMauve_12GProchlo.csh
 +
squeue -l -u <user>
 +
</pre>
 +
[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/Mauve Mauve]
 +
<!--
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
mkdir ~/work/Alignement_genomes/ProgressiveMauve
 +
cd ~/work/Alignement_genomes
 +
srun --pty bash
 +
module load bioinfo/mauve_2.4.0
 +
progressiveMauve --output=ProgressiveMauve/12GC_Prochlorococcus_PMauve.xmfa genomes_prochlo/12GC_Prochlorococcus.fna
 +
</pre>
 +
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
sbatch RunSLURM_PMauve_12GProchlo.csh
 +
</pre>
 +
-->
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 2.7:
 +
Analyser et interpréter les résultats en les visualisant via l’interface Mauve
 +
 +
Si vous avez l'annotation des gènes dans le résultat de ''Progressive Mauve'', vous pouvez visualiser la conservation du contexte de ces gènes de l'OG 5 de PorthoMCL et proposer une interprétation des liens complexes existant entre ces gènes homologues.
 +
</pre>
 +
L'article de Yan et al., 2018 Genome rearrangement shapes ''Prochlorococcus'' ecological adaptation. Appl Environ Microbiol 84:e01178-18. https://doi.org/10.1128/AEM.01178-18 peut vous aider dans l'interprétation des résultats.
 +
 +
===Reconstruction de l’histoire évolutive des réarrangements et des états ancestraux===
 +
masqué
 +
<!--
 +
:'''Exporter le fichier de permutation des LCBs de l’alignement généré à la question précédente avec ProgressiveMauve en cliquant dans l’interface Mauve sur Tools => Export => Export Permutation. Ainsi vous pouvez créer les fichiers permutations.'''
 +
*6GC_Prochlorococcus_pmauve.permutation (pour se familiariser sur les résultats!)
 +
*12GC_Prochlorococcus_pmauve.permutation
 +
 +
NB1: Il n’est pas possible de lancer ProgressiveMauve directement avec l’option –permutation-matrix (ne fonctionne qu’avec Mauve).
 +
 +
NB2: Il est nécessaire d'éditer le fichier 12GC_Prochlorococcus_pmauve.permutation pour le mettre au format MLGO : ajouter une ligne « >id genome » dans le même ordre que le fichier d’entrée 12GC_Prochlorococcus.fna et remplacer toutes les virgules par des espaces. Ajouter un espace avant le $ de chaque fin de ligne
 +
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
grep ">" 12GC_Prochlorococcus.fna
 +
</pre>
 +
 +
Le fichier doit avoir le format suivant
 +
<pre>
 +
>Aaaa
 +
1 56 55 54 26 5 52 53 27 $
 +
>Aaab
 +
1 56 55 54 26 5 52 53 27 $
 +
Etc...
 +
</pre>
 +
 +
:'''Utiliser le logiciel MLGO pour inférer l’histoire évolutive des réarrangements à partir de la matrice de permutation modifiée (n'oubliez pas de calculer les bootstraps ).'''
 +
 +
Lien vers [http://www.geneorder.org/server.php MLGO]
 +
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 2.6:
 +
Visualiser les arbres produits par MLGO en utilisant l’outil de votre choix (par exemple FigTree ou iTOL) et interpréter les résultats en fonction des écotypes.
 +
</pre>
 +
 +
NB1: Le fichier gene_order.tree.PMAG contient l’arbre avec les nœuds ancestraux (A1,A2,…etc) et le fichier gene_order.out contient l’ordre des gènes (ici LCBs) dans ces génomes ancestraux.
 +
 +
NB2: Le fichier de sortie MLGO gene_order_bs.tree qui contient les valeurs de bootstrap entre [] est non standard et n’est pas lisible par FigTree. Pour pouvoir le lire effectuer la transformation suivante:
 +
 +
<pre>
 +
more gene_order_bs.tree
 +
 +
(Aaab:0.00038261697365918421,(((Aaal:0.00110779153484151733,Aaac:0.00045702512028280982):0.01128794608013189253[100],((Aaah:0.00195679558538791641,Aaaa:0.00249248732070895488):0.00170192911132310224[98],(Aaad:0.00000001574704787426,Aaai:0.00000001574704787426):0.00384727219137918474[100]):0.00019414433073579879[65]):0.00328248641555709160[100],(Aaaj:0.00000001574704787426,(Aaaf:0.00000001574704787426,(Aaae:0.00000001574704787426,Aaak:0.00000001574704787426):0.00000001574704787426[34]):0.00000001574704787426[33]):0.00056868823569016999[98]):0.00018460659686999882[50],Aaag:0.00040691005233194506);
 +
 +
Est à transformer en:
 +
 +
(Aaab:0.00038261697365918421,(((Aaal:0.00110779153484151733,Aaac:0.00045702512028280982)100:0.01128794608013189253,((Aaah:0.00195679558538791641,Aaaa:0.00249248732070895488)98:0.00170192911132310224,(Aaad:0.00000001574704787426,Aaai:0.00000001574704787426)100:0.00384727219137918474)65:0.00019414433073579879)100:0.00328248641555709160,(Aaaj:0.00000001574704787426,(Aaaf:0.00000001574704787426,(Aaae:0.00000001574704787426,Aaak:0.00000001574704787426)34:0.00000001574704787426)33:0.00000001574704787426)98:0.00056868823569016999)50:0.00018460659686999882,Aaag:0.00040691005233194506);
 +
</pre>
 +
Ou plus simplement, vous pouvez utiliser [https://itol.embl.de/ iTOL] pous visualiser l'arbre directement avec les valeurs de bootstraps et éventuellement l'annoter.
 +
-->
----
----
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Alignement_et_comparaison_de_g.C3.A9nomes_complets Alignement Genomes]
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Alignement_et_comparaison_de_g.C3.A9nomes_complets Alignement Genomes]

Revision as of 09:29, 15 October 2021

Contents

Liens

Alignement et comparaison de génomes complets

Jeu de données

Vous pouvez retrouver les informations sur les 12 génomes de Prochlorococcus ici et les données dans le répertoire: /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/

Copiez les 12 génomes de Prochlorococcus dans un répertoire de votre ~/work, par exemple genomes_prochlo:

mkdir -p ~/work/Alignement_genomes/genomes_prochlo
cp  /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/*.fas ~/work/Alignement_genomes/genomes_prochlo/
ls ~/work/Alignement_genomes/genomes_prochlo/

Exploration de la diversité génomique à partir de l’ANI et des distances Mash

Diversité génomique basée sur l’ANI
Calculer l’ANI entre toutes les paires de génomes en utilisant la version basée sur Mummer. http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/2018_supports/CoursAligntGenomes2018.pdf
srun --pty bash
module load system/Python-3.6.3
module load bioinfo/mummer-4.0.0beta2
average_nucleotide_identity.py -h

average_nucleotide_identity.py -v -i ~/work/Alignement_genomes/genomes_prochlo/ -o  ~/work/Alignement_genomes/genomes_ANIm_output/  --gformat png,pdf,eps,svg --write_excel -m ANIm

Exemple de script "RunSLURM_ANI.csh" (les chemins sont à changer):

sbatch RunSLURM_ANI.csh
squeue -l -u <user>
Question 2.1:
Regardez les différents fichiers résultats.
Regardez la couverture et le pourcentage d’identité des alignements et commentez les valeurs obtenues.
Qu’en concluez-vous sur la diversité des génomes de Prochlorococcus ?
Construire un arbre de Neighbor-Joining basé sur le ANI (ANIm_percentage_identity et ANIm_alignment_coverage) avec le logiciel de votre choix

Vous pourrez par exemple utiliser la fonction nj du package R ape. Notez que la commande nj prend en entrée une matrice de distance. La fonction heatmap (r-graph-gallery) peut être utile pour visualiser les relations entre les souches.


id_file <- "work/Alignement_genomes/genomes_ANIm_output/ANIm_percentage_identity.tab"
id_data <- read.table(file=id_file, header=T, row.names=1)
heatmap(as.matrix(id_data), scale="none", symm=T, main="ANIm_percentage_identity")
 
co_file <- "work/Alignement_genomes/genomes_ANIm_output/ANIm_alignment_coverage.tab"
co_data <- read.table(file=co_file, header=T, row.names=1)
heatmap(as.matrix(co_data), scale="none", symm=T, main="ANIm_alignment_coverage")
 
id_nj <- nj(as.matrix(1-id_data))
plot(id_nj, main="ANIm_percentage_identity")
 
co_nj <- nj(as.matrix(1-co_data))
plot(co_nj, main="ANIm_alignment_coverage")
Question 2.2:
Interprétez les résultats.
Sélectionnez les génomes en ne gardant que le sous-groupe de 6 génomes qui ont au moins 28% de couverture avec tous les autres génomes (pour cela regardez le fichier ANIm_alignement_coverage.tab)
Question 2.3:
Citez les.
Distance Mash entre les génomes

Passez à l'étape suivante.

Alignements Mauve et ProgressiveMauve

NB : Commencez par lancer l’alignement ProgressiveMauve (environ 50-60 minutes de temps d’execution) avant de faire la question sur l'alignement Mauve !!!
Alignements Mauve d'un sous-ensemble de 6 génomes
mkdir -p ~/work/Alignement_genomes/cat_genomes_prochlo
Concaténer les 6 génomes sélectionnés à la question précédente dans un fichier multifasta

MSK

Lancement de l’alignement des 6 génomes sur le cluster SLURM
mkdir ~/work/Alignement_genomes/Mauve
cd ~/work/Alignement_genomes

Exemple de script "RunSLURM_Mauve_6GProchlo.csh" (les chemins sont à changer):

sbatch RunSLURM_Mauve_6GProchlo.csh
squeue -l -u <user>

Exemple de la commande à lancer avec le fichier en format gbk

module load bioinfo/mauve_2.4.0
mauveAligner --output=Mauve/6GC_Prochlorococcus_gbk.mauve_def --permutation-matrix-output=Mauve/6GC_Prochlorococcus_gbk.permutation_matrix --output-guide-tree=Mauve/6GC_Prochlorococcus_gbk.tree --output-alignment=Mauve/6GC_Prochlorococcus_gbk_mauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk
Analyser et interpréter les résultats en les visualisant via l’interface Mauve (commande Mauve)

Remarques:

  • dans le fichier Mauve/6GC_Prochlorococcus_gbk_mauve.xmfa, le chemin du fichier gbk et relatif, penser à lancer Mauve dans le bon répertoire pour avoir les annotations des gènes.
  • lien entre le code et le nom de souche: species_strain_names.txt
#FormatVersion Mauve1
#Sequence1File	cat_genomes_prochlo/6GC_Prochlorococcus.gbk
#Sequence1Entry	1
#Sequence1Format	GenBank
#Annotation1File	cat_genomes_prochlo/6GC_Prochlorococcus.gbk
...
Exploration du contexte génomique

L'outil Sequence Navigator (les jumelles) permet de rechercher un ou plusieurs gènes sur différents critères. Nous allons utiliser cette fonctionnalité pour analyser le contexte génomique des gènes suivants. Les noms des gènes sont accessibles par locus tag. En vous plaçant sur le gène, vous avez ses annotations avec View Genbank.... En quittant les jumelles, vous pouvez analyser la conservation du contexte à différentes échelles.

Aaab.g_00239 Aaab.g_00820 Aaab.g_00825 
Aaag.g_00262 Aaag.g_00862 Aaag.g_00867 
Aaaj.g_00252 Aaaj.g_00786 Aaaj.g_00791 
Aaaf.g_00249 Aaaf.g_00782 Aaaf.g_00787 
Aaak.g_00251 Aaak.g_00834 Aaak.g_00839 
Aaae.g_00242 Aaae.g_00786 Aaae.g_00791 
Question 2.5:
Combien y’a-t-il de LCB dans l’alignement ? Quel est leur poids minimal ? Y’a–t-il des réarrangements globaux dans l’alignement et si oui lesquels ? Décrire la structure de l’alignement. Que se passe-t-il si on fait varier le poids des LCB ?
Qu'avez-vous appris de l'analyse du contexte génomique des gènes.
Alignement Progressive Mauve de l’ensemble complet des 6 génomes

Afin de comparer les logiciels Mauve et ProgressiveMauve nous allons analyser l'ensemble de 6 génomes avec ProgressiveMauve.

ls
mkdir ~/work/Alignement_genomes/ProgressiveMauve
cd ~/work/Alignement_genomes

Créer un ficher .csh en prenant pour exemple le fichier "RunSLURM_PMauve_6GProchlo.csh" avec comme ligne de commande:

progressiveMauve --output=ProgressiveMauve/6GC_Prochlorococcus_PMauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk

Mauve

Question 2.6:
Comparez et interprétez les résultats obtenus.
Alignement Progressive Mauve de l’ensemble complet des 12 génomes

Concaténer les 12 génomes dans un fichier multifasta

MSK

Lancer l’alignement ProgressiveMauve des 12 génomes sur le cluster SLURM

Exemple de script "RunSLURM_PMauve_12GProchlo.csh" (les chemins sont à changer).

sbatch RunSLURM_PMauve_12GProchlo.csh
squeue -l -u <user>

Mauve

Question 2.7:
Analyser et interpréter les résultats en les visualisant via l’interface Mauve

Si vous avez l'annotation des gènes dans le résultat de ''Progressive Mauve'', vous pouvez visualiser la conservation du contexte de ces gènes de l'OG 5 de PorthoMCL et proposer une interprétation des liens complexes existant entre ces gènes homologues.

L'article de Yan et al., 2018 Genome rearrangement shapes Prochlorococcus ecological adaptation. Appl Environ Microbiol 84:e01178-18. https://doi.org/10.1128/AEM.01178-18 peut vous aider dans l'interprétation des résultats.

Reconstruction de l’histoire évolutive des réarrangements et des états ancestraux

masqué