Atelier Phylogénomique Conservation entre souches
From silico.biotoul.fr
Contents |
Liens
- retour à Atelier Phylogénomique
Genome pairs
BlastN par pairs
Afin d'estimer les conservations entre les différents génomes, nous allons les comparer par paire de génomes dans l'ordre suivant, à l'aide de blastn:
'Aaab', 'Aaag', 'Aaaj', 'Aaaf', 'Aaak', 'Aaae', 'Aaai', 'Aaad', 'Aaaa', 'Aaah', 'Aaal', 'Aaac'
Les résultats sont dans le repertoire:
mkdir ~/work/Prochlorococcus/BlastN
Nous allons utiliser l'option BLAST-2-Sequences de blastn en précisant -subject <File_In>.
Une paire de génomes
Exemple avec une paire de génomes:
search_module blast srun --pty bash module load bioinfo/ncbi-blast-2.7.1+ blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaab.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaag.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab
À la fin du programme, déconnectez-vous du nœud (exit) pour revenir au frontal genologin2.
Toutes les paires de génomes
Nous allons exécuter la même commande sur toutes les paires consécutives de génomes dans l'ordre listés ci-dessus. Nous allons utiliser sarray pour soumettre ces commandes en même temps sur le cluster. Vous pouvez vous référer à "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/ pour vous aider dans cette tâche.
Nous allons écrire un script shell pour créer le fichier à soumettre par sarray.
- Dans un premier temps vous devez utiliser une boucle for pour construire les paires de génomes adjacents dans la liste ci-dessus.
- et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes.
MSK
Vérifier le script et lancer le avec sarray
cat blastn_pairs.sh sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blastn_pairs.sh
Vérifier l'exécution des blastn
squeue -l -u <user>
Lister les fichiers obtenus:
ls -l ~/work/Prochlorococcus/BlastN
genoplotR
Nous allons utiliser genoplotR pour visualiser les similarités entre les paires de génomes.
Installation du package genoPlotR
srun --pty bash module load system/R-3.5.1 R install.packages('genoPlotR') ... * installing *source* package ‘genoPlotR’ ... library(genoPlotR)
Sélectionner France (Lyon 2) [https] comme miroir CRAN.
Mise en œuvre
genoplotR nécessite plusieurs objets:
- dna_seg: un objet dna_seg est un ensemble de gènes ou d'éléments le long d'un génome, à représenter sur une carte. Nous allons utiliser les fichiers en format gbk créés par prokka.
- comparison: une comparaison est un ensemble de similitudes, représentant la comparaison entre deux segments d'ADN. Nous allons utiliser les résultats des blastn entre paires de genomes.
- annotation: un objet d'annotation est utilisé pour annoter un segment d'ADN. Nous ne l'utilisons pas ici.
- tree: un arbre au format Newick qui peut être analysé à l'aide du paquetage ade4. Nous l'utiliserons plus tard!
mkdir ~/work/Prochlorococcus/images srun --pty bash module load system/R-3.5.1 Rscript ~/work/scripts/genoplot_blastn_links.R
Pour visualiser les fichiers pdf, il est préférable d'utiliser votre machine en P0. Pensez à faire des rsync avant! Placez-vous dans le répertoire racine de votre TD (au dessus de work).
evince work/Prochlorococcus/images/genoplot_blastn_links.pdf
ACT
Il est également possible d'utiliser le logiciel act (documentation).
Question 1.3: Commentez les résultats obtenus avec genoplotR. Que pensez-vous de la conservation des séquences des génomes?