Atelier Phylogénomique Conservation entre souches
From silico.biotoul.fr
m (Created page with '==Liens== *[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique Atelier de Phylogénomique]') |
m (→Liens) |
||
Line 1: | Line 1: | ||
==Liens== | ==Liens== | ||
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique Atelier de Phylogénomique] | *[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique Atelier de Phylogénomique] | ||
+ | ==Genome pairs== | ||
+ | ===BlastN par pairs=== | ||
+ | Afin d'estimer les conservations entre les différents génomes, nous allons les comparer par paire de génomes dans l'ordre suivant, à l'aide de ''blastn'': | ||
+ | <pre> | ||
+ | 'Aaab', 'Aaag', 'Aaaj', 'Aaaf', 'Aaak', 'Aaae', 'Aaai', 'Aaad', 'Aaaa', 'Aaah', 'Aaal', 'Aaac' | ||
+ | </pre> | ||
+ | Les résultats sont dans le repertoire: | ||
+ | <pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | mkdir ~/work/Prochlorococcus/BlastN | ||
+ | </pre> | ||
+ | Nous allons utiliser l'option ''BLAST-2-Sequences'' de blastn en précisant -subject <File_In>. | ||
+ | |||
+ | Exemple avec une paire de génomes: | ||
+ | <pre style="color:green;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | search_module blast | ||
+ | |||
+ | srun --pty bash | ||
+ | module load bioinfo/ncbi-blast-2.7.1+ | ||
+ | blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaab.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaag.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab | ||
+ | </pre> | ||
+ | Nous allons exécuter la même commande sur toutes les paires consécutives de génomes dans l'ordre listés ci-dessus. Nous allons utiliser ''sarray'' pour soumettre ces commandes en même temps sur le cluster. Vous pouvez vous référer à "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/ pour vous aider dans cette tâche. | ||
+ | |||
+ | Nous allons écrire un script shell pour créer le fichier à soumettre par ''sarray''. | ||
+ | # Dans un premier temps vous devez utiliser une boucle ''for'' pour construire les paires de génomes adjacents dans la liste ci-dessus. | ||
+ | # et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes. | ||
+ | MSK | ||
+ | <syntaxhighlight lang="bash"> | ||
+ | left="" | ||
+ | for i in 'Aaab' 'Aaag' 'Aaaj' 'Aaaf' 'Aaak' 'Aaae' 'Aaai' 'Aaad' 'Aaaa' 'Aaah' 'Aaal' 'Aaac' | ||
+ | do | ||
+ | if [ "$left" != "" ]; | ||
+ | then | ||
+ | output="~/work/Prochlorococcus/BlastN/"$left"_vs_"$i.tab | ||
+ | echo "module load bioinfo/ncbi-blast-2.7.1+; blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$left.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$i.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out $output"; | ||
+ | fi | ||
+ | left=$i; | ||
+ | done > blastn_pairs.sh | ||
+ | </syntaxhighlight> | ||
+ | |||
+ | Vérifier le script et lancer le avec ''sarray'' | ||
+ | <pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | cat blastn_pairs.sh | ||
+ | sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blastn_pairs.sh | ||
+ | </pre> | ||
+ | Vérifier l'exécution des blastn | ||
+ | <pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | squeue -l -u <user> | ||
+ | </pre> | ||
+ | Lister les fichiers obtenus: | ||
+ | <pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | ls -l ~/work/Prochlorococcus/BlastN | ||
+ | </pre> | ||
+ | |||
+ | ===genoplotR=== | ||
+ | Nous allons utiliser [http://genoplotr.r-forge.r-project.org/ genoplotR] pour visualiser les similarités entre les paires de génomes. | ||
+ | ====Installation du package genoPlotR==== | ||
+ | <pre style="color:purple;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | srun --pty bash | ||
+ | module load system/R-3.5.1 | ||
+ | R | ||
+ | install.packages('genoPlotR') | ||
+ | ... | ||
+ | * installing *source* package ‘genoPlotR’ ... | ||
+ | library(genoPlotR) | ||
+ | </pre> | ||
+ | Sélectionner ''France (Lyon 2) [https]'' comme miroir CRAN. | ||
+ | ====Mise en œuvre==== | ||
+ | genoplotR nécessite plusieurs objets: | ||
+ | *dna_seg: un objet dna_seg est un ensemble de gènes ou d'éléments le long d'un génome, à représenter sur une carte. Nous allons utiliser les fichiers en format gbk créés par prokka. | ||
+ | *comparison: une comparaison est un ensemble de similitudes, représentant la comparaison entre deux segments d'ADN. Nous allons utiliser les résultats des blastn entre paires de genomes. | ||
+ | *annotation: un objet d'annotation est utilisé pour annoter un segment d'ADN. Nous ne l'utilisons pas ici. | ||
+ | *tree: un arbre au format Newick qui peut être analysé à l'aide du paquetage ade4. Nous l'utiliserons plus tard! | ||
+ | |||
+ | <pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | mkdir ~/work/Prochlorococcus/images | ||
+ | srun --pty bash | ||
+ | module load system/R-3.5.1 | ||
+ | Rscript ~/work/scripts/genoplot_blastn_links.R | ||
+ | </pre> | ||
+ | Pour visualiser les fichiers pdf, il est préférable d'utiliser votre machine en P0. Pensez à faire des rsync avant! Placez-vous dans le répertoire racine de votre TD (au dessus de work). | ||
+ | <pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | evince work/Prochlorococcus/images/genoplot_blastn_links.pdf | ||
+ | </pre> | ||
+ | |||
+ | ===ACT=== | ||
+ | Il est également possible d'utiliser le logiciel ''act'' ([ftp://ftp.sanger.ac.uk/pub/resources/software/act/act.pdf documentation]). | ||
+ | <!-- | ||
+ | Copier les fichiers sur votre porte de travail en P0 et lancer : | ||
+ | <pre style="color:grey;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | act work/Prochlorococcus/prokka/Aaab/Aaab.gbk work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab work/Prochlorococcus/prokka/Aaag/Aaag.gbk | ||
+ | </pre> | ||
+ | Vous pouvez aussi utiliser les fichiers en format gff. | ||
+ | <pre style="color:grey;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | act work/Prochlorococcus/prokka/Aaab/Aaab.gff work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab work/Prochlorococcus/prokka/Aaag/Aaag.gff work/Prochlorococcus/BlastN/Aaag_vs_Aaaj.tab work/Prochlorococcus/prokka/Aaaj/Aaaj.gff work/Prochlorococcus/BlastN/Aaaj_vs_Aaaf.tab work/Prochlorococcus/prokka/Aaaf/Aaaf.gff work/Prochlorococcus/BlastN/Aaaf_vs_Aaak.tab work/Prochlorococcus/prokka/Aaak/Aaak.gff | ||
+ | </--> | ||
+ | <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
+ | Question 1.3: | ||
+ | Commentez les résultats obtenus avec genoplotR. | ||
+ | Que pensez-vous de la conservation des séquences des génomes? | ||
+ | </pre> |
Revision as of 13:35, 14 October 2021
Contents |
Liens
Genome pairs
BlastN par pairs
Afin d'estimer les conservations entre les différents génomes, nous allons les comparer par paire de génomes dans l'ordre suivant, à l'aide de blastn:
'Aaab', 'Aaag', 'Aaaj', 'Aaaf', 'Aaak', 'Aaae', 'Aaai', 'Aaad', 'Aaaa', 'Aaah', 'Aaal', 'Aaac'
Les résultats sont dans le repertoire:
mkdir ~/work/Prochlorococcus/BlastN
Nous allons utiliser l'option BLAST-2-Sequences de blastn en précisant -subject <File_In>.
Exemple avec une paire de génomes:
search_module blast srun --pty bash module load bioinfo/ncbi-blast-2.7.1+ blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaab.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaag.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab
Nous allons exécuter la même commande sur toutes les paires consécutives de génomes dans l'ordre listés ci-dessus. Nous allons utiliser sarray pour soumettre ces commandes en même temps sur le cluster. Vous pouvez vous référer à "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/ pour vous aider dans cette tâche.
Nous allons écrire un script shell pour créer le fichier à soumettre par sarray.
- Dans un premier temps vous devez utiliser une boucle for pour construire les paires de génomes adjacents dans la liste ci-dessus.
- et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes.
MSK
left="" for i in 'Aaab' 'Aaag' 'Aaaj' 'Aaaf' 'Aaak' 'Aaae' 'Aaai' 'Aaad' 'Aaaa' 'Aaah' 'Aaal' 'Aaac' do if [ "$left" != "" ]; then output="~/work/Prochlorococcus/BlastN/"$left"_vs_"$i.tab echo "module load bioinfo/ncbi-blast-2.7.1+; blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$left.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$i.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out $output"; fi left=$i; done > blastn_pairs.sh
Vérifier le script et lancer le avec sarray
cat blastn_pairs.sh sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blastn_pairs.sh
Vérifier l'exécution des blastn
squeue -l -u <user>
Lister les fichiers obtenus:
ls -l ~/work/Prochlorococcus/BlastN
genoplotR
Nous allons utiliser genoplotR pour visualiser les similarités entre les paires de génomes.
Installation du package genoPlotR
srun --pty bash module load system/R-3.5.1 R install.packages('genoPlotR') ... * installing *source* package ‘genoPlotR’ ... library(genoPlotR)
Sélectionner France (Lyon 2) [https] comme miroir CRAN.
Mise en œuvre
genoplotR nécessite plusieurs objets:
- dna_seg: un objet dna_seg est un ensemble de gènes ou d'éléments le long d'un génome, à représenter sur une carte. Nous allons utiliser les fichiers en format gbk créés par prokka.
- comparison: une comparaison est un ensemble de similitudes, représentant la comparaison entre deux segments d'ADN. Nous allons utiliser les résultats des blastn entre paires de genomes.
- annotation: un objet d'annotation est utilisé pour annoter un segment d'ADN. Nous ne l'utilisons pas ici.
- tree: un arbre au format Newick qui peut être analysé à l'aide du paquetage ade4. Nous l'utiliserons plus tard!
mkdir ~/work/Prochlorococcus/images srun --pty bash module load system/R-3.5.1 Rscript ~/work/scripts/genoplot_blastn_links.R
Pour visualiser les fichiers pdf, il est préférable d'utiliser votre machine en P0. Pensez à faire des rsync avant! Placez-vous dans le répertoire racine de votre TD (au dessus de work).
evince work/Prochlorococcus/images/genoplot_blastn_links.pdf
ACT
Il est également possible d'utiliser le logiciel act (documentation).
Question 1.3: Commentez les résultats obtenus avec genoplotR. Que pensez-vous de la conservation des séquences des génomes?