Atelier Phylogénomique Alignement Genomes

From silico.biotoul.fr

Liens

retour à Atelier Phylogénomique

Alignement et comparaison de génomes complets

Jeu de données

Vous pouvez retrouver les informations sur les 12 génomes de Prochlorococcus ici et les données dans le répertoire: /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/

Copiez les 12 génomes de Prochlorococcus dans un répertoire de votre ~/work, par exemple genomes_prochlo:

mkdir -p ~/work/Alignement_genomes/genomes_prochlo
cp  /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/*.fas ~/work/Alignement_genomes/genomes_prochlo/
ls ~/work/Alignement_genomes/genomes_prochlo/

Exploration de la diversité génomique à partir de l’ANI et des distances Mash

Diversité génomique basée sur l’ANI

Calculer l’ANI entre toutes les paires de génomes en utilisant la version basée sur Mummer. http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/2018_supports/CoursAligntGenomes2018.pdf

srun --pty bash
module load system/Python-3.6.3
module load bioinfo/mummer-4.0.0beta2
average_nucleotide_identity.py -h
 
average_nucleotide_identity.py -v -i ~/work/Alignement_genomes/genomes_prochlo/ -o  ~/work/Alignement_genomes/genomes_ANIm_output/  --gformat png,pdf,eps,svg --write_excel -m ANIm

Exemple de script "RunSLURM_ANI.csh" (les chemins sont à changer):

sbatch ~/work/Alignement_genomes/RunSLURM_ANI.csh
squeue -l -u $USER

Question 2.1:
Regardez les différents fichiers résultats.
Regardez la couverture et le pourcentage d’identité des alignements et commentez les valeurs obtenues.
Qu’en concluez-vous sur la diversité des génomes de Prochlorococcus ?

Construire un arbre de Neighbor-Joining basé sur le ANI (ANIm_percentage_identity et ANIm_alignment_coverage) avec le logiciel de votre choix

Vous pourrez par exemple utiliser la fonction nj du package R ape. Notez que la commande nj prend en entrée une matrice de distance. La fonction heatmap (r-graph-gallery) peut être utile pour visualiser les relations entre les souches.

MSK

srun --pty bash
 
mkdir ~/work/Alignement_genomes/images
cd ~/work/Alignement_genomes/genomes_ANIm_output
 
module load system/R-4.1.1_gcc-9.3.0
R
pdf_file <- '~/work/Alignement_genomes/images/ANIm_percentage_identity.pdf'
ANIm_percentage_identity <- 'ANIm_percentage_identity.tab'
data <- read.delim(file=ANIm_percentage_identity, sep="\t", header=TRUE, row.names=1)
pdf(file=pdf_file, paper="a4r")
heatmap(t(as.matrix(data)), scale='none', xlab="Strains", labCol=NA)
dev.off()
cat(pdf_file, "\n")
 
pdf_file <- '~/work/Alignement_genomes/images/ANIm_alignment_coverage.pdf'
ANIm_alignment_coverage <- 'ANIm_alignment_coverage.tab'
 
data <- read.delim(file=ANIm_alignment_coverage, sep="\t", header=TRUE, row.names=1)
 
pdf(file=pdf_file, paper="a4r")
heatmap(t(as.matrix(data)), scale='none', xlab="Strains", labCol=NA)
dev.off()
cat(pdf_file, "\n")

Question 2.2:
Interprétez les résultats.

Sélectionnez les génomes en ne gardant que le sous-groupe de 6 génomes qui ont au moins 28% de couverture avec tous les autres génomes (pour cela regardez le fichier ANIm_alignement_coverage.tab)

Question 2.3:
Citez les.

Distance Mash entre les génomes

Passez à l'étape suivante.

Alignements Mauve et ProgressiveMauve

NB : Commencez par lancer l’alignement ProgressiveMauve (environ 50-60 minutes de temps d’execution) avant de faire la question sur l'alignement Mauve !!!

Alignements Mauve d'un sous-ensemble de six génomes

mkdir -p ~/work/Alignement_genomes/cat_genomes_prochlo

Concaténer les six génomes sélectionnés à la question précédente dans un fichier multifasta

rm ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.fna
rm ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gbk
rm ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gff
 
for i in Aaab Aaag Aaaj Aaaf Aaak Aaae 
do
 echo $i
 cat ~/work/Alignement_genomes/genomes_prochlo/$i.fas >> ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.fna
 cat ~/work/Prochlorococcus/prokka/$i/$i.gbk >> ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gbk
 cat ~/work/Prochlorococcus/prokka/$i/$i.gff >> ~/work/Alignement_genomes/cat_genomes_prochlo/6GC_Prochlorococcus.gff
done

MSK

Lancement de l’alignement des 6 génomes sur le cluster SLURM

mkdir ~/work/Alignement_genomes/Mauve
cd ~/work/Alignement_genomes

Exemple de script "RunSLURM_Mauve_6GProchlo.csh" (les chemins sont à changer):

sbatch RunSLURM_Mauve_6GProchlo.csh
squeue -l -u $USER

Exemple de la commande à lancer avec le fichier en format gbk

module load bioinfo/mauve_2.4.0
mauveAligner --output=Mauve/6GC_Prochlorococcus_gbk.mauve_def --permutation-matrix-output=Mauve/6GC_Prochlorococcus_gbk.permutation_matrix --output-guide-tree=Mauve/6GC_Prochlorococcus_gbk.tree --output-alignment=Mauve/6GC_Prochlorococcus_gbk_mauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk

Analyser et interpréter les résultats en les visualisant via l’interface Mauve (commande Mauve)

Remarques:

dans le fichier Mauve/6GC_Prochlorococcus_gbk_mauve.xmfa, le chemin du fichier gbk est relatif, penser à lancer Mauve dans le bon répertoire pour avoir les annotations des gènes.
lien entre le code et le nom de souche: species_strain_names.txt

#FormatVersion Mauve1
#Sequence1File	cat_genomes_prochlo/6GC_Prochlorococcus.gbk
#Sequence1Entry	1
#Sequence1Format	GenBank
#Annotation1File	cat_genomes_prochlo/6GC_Prochlorococcus.gbk
...

Exploration du contexte génomique

L'outil Sequence Navigator (les jumelles) permet de rechercher un ou plusieurs gènes sur différents critères. Nous allons utiliser cette fonctionnalité pour analyser le contexte génomique des gènes suivants. Les noms des gènes sont accessibles par locus tag. En vous plaçant sur le gène, vous avez ses annotations avec View Genbank.... En quittant les jumelles, vous pouvez analyser la conservation du contexte à différentes échelles.

Aaab.g_00239 Aaab.g_00820 Aaab.g_00825 
Aaag.g_00262 Aaag.g_00862 Aaag.g_00867 
Aaaj.g_00252 Aaaj.g_00786 Aaaj.g_00791 
Aaaf.g_00249 Aaaf.g_00782 Aaaf.g_00787 
Aaak.g_00251 Aaak.g_00834 Aaak.g_00839 
Aaae.g_00242 Aaae.g_00786 Aaae.g_00791

Question 2.5:
Combien y’a-t-il de LCB dans l’alignement ? Quel est leur poids minimal ? Y’a–t-il des réarrangements globaux dans l’alignement et si oui lesquels ? Décrire la structure de l’alignement. Que se passe-t-il si on fait varier le poids des LCB ?
Qu'avez-vous appris de l'analyse du contexte génomique des gènes.

Alignement Progressive Mauve de l’ensemble complet des 6 génomes

Afin de comparer les logiciels Mauve et ProgressiveMauve nous allons analyser l'ensemble de 6 génomes avec ProgressiveMauve.

ls
mkdir ~/work/Alignement_genomes/ProgressiveMauve
cd ~/work/Alignement_genomes

Créer un ficher .csh en prenant pour exemple le fichier "RunSLURM_PMauve_6GProchlo.csh" avec comme ligne de commande:

progressiveMauve --output=ProgressiveMauve/6GC_Prochlorococcus_PMauve.xmfa cat_genomes_prochlo/6GC_Prochlorococcus.gbk

Mauve

Question 2.6:
Comparez et interprétez les résultats obtenus.

Alignement Progressive Mauve de l’ensemble complet des 12 génomes

Concaténer les 12 génomes dans un fichier multifasta

MSK

Lancer l’alignement ProgressiveMauve des 12 génomes sur le cluster SLURM

Exemple de script "RunSLURM_PMauve_12GProchlo.csh" (les chemins sont à changer).

sbatch RunSLURM_PMauve_12GProchlo.csh
squeue -l -u $USER