silico.biotoul.fr
 

Atelier Phylogénomique Conservation entre souches

From silico.biotoul.fr

Revision as of 13:36, 14 October 2021 by Quentin (Talk | contribs)
Jump to: navigation, search

Contents

Liens

Genome pairs

BlastN par pairs

Afin d'estimer les conservations entre les différents génomes, nous allons les comparer par paire de génomes dans l'ordre suivant, à l'aide de blastn:

'Aaab', 'Aaag', 'Aaaj', 'Aaaf', 'Aaak', 'Aaae', 'Aaai', 'Aaad', 'Aaaa', 'Aaah', 'Aaal', 'Aaac'

Les résultats sont dans le repertoire:

mkdir ~/work/Prochlorococcus/BlastN

Nous allons utiliser l'option BLAST-2-Sequences de blastn en précisant -subject <File_In>.

Exemple avec une paire de génomes:

search_module blast

srun --pty bash 
module load bioinfo/ncbi-blast-2.7.1+
blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaab.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaag.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab

Nous allons exécuter la même commande sur toutes les paires consécutives de génomes dans l'ordre listés ci-dessus. Nous allons utiliser sarray pour soumettre ces commandes en même temps sur le cluster. Vous pouvez vous référer à "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/ pour vous aider dans cette tâche.

Nous allons écrire un script shell pour créer le fichier à soumettre par sarray.

  1. Dans un premier temps vous devez utiliser une boucle for pour construire les paires de génomes adjacents dans la liste ci-dessus.
  2. et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes.

MSK

left=""
for i in 'Aaab' 'Aaag' 'Aaaj' 'Aaaf' 'Aaak' 'Aaae' 'Aaai' 'Aaad' 'Aaaa' 'Aaah' 'Aaal' 'Aaac'
do      
  if [ "$left" != "" ]; 
  then
    output="~/work/Prochlorococcus/BlastN/"$left"_vs_"$i.tab
    echo "module load bioinfo/ncbi-blast-2.7.1+; blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$left.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$i.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out $output";
  fi     
  left=$i; 
done > blastn_pairs.sh

Vérifier le script et lancer le avec sarray

cat blastn_pairs.sh
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blastn_pairs.sh

Vérifier l'exécution des blastn

squeue -l -u <user>

Lister les fichiers obtenus:

ls -l ~/work/Prochlorococcus/BlastN

genoplotR

Nous allons utiliser genoplotR pour visualiser les similarités entre les paires de génomes.

Installation du package genoPlotR

srun --pty bash
module load system/R-3.5.1
R
install.packages('genoPlotR')
...
* installing *source* package ‘genoPlotR’ ...
library(genoPlotR)

Sélectionner France (Lyon 2) [https] comme miroir CRAN.

Mise en œuvre

genoplotR nécessite plusieurs objets:

  • dna_seg: un objet dna_seg est un ensemble de gènes ou d'éléments le long d'un génome, à représenter sur une carte. Nous allons utiliser les fichiers en format gbk créés par prokka.
  • comparison: une comparaison est un ensemble de similitudes, représentant la comparaison entre deux segments d'ADN. Nous allons utiliser les résultats des blastn entre paires de genomes.
  • annotation: un objet d'annotation est utilisé pour annoter un segment d'ADN. Nous ne l'utilisons pas ici.
  • tree: un arbre au format Newick qui peut être analysé à l'aide du paquetage ade4. Nous l'utiliserons plus tard!
mkdir ~/work/Prochlorococcus/images
srun --pty bash
module load system/R-3.5.1
Rscript ~/work/scripts/genoplot_blastn_links.R

Pour visualiser les fichiers pdf, il est préférable d'utiliser votre machine en P0. Pensez à faire des rsync avant! Placez-vous dans le répertoire racine de votre TD (au dessus de work).

evince work/Prochlorococcus/images/genoplot_blastn_links.pdf

ACT

Il est également possible d'utiliser le logiciel act (documentation).

Question 1.3:
Commentez les résultats obtenus avec genoplotR.
Que pensez-vous de la conservation des séquences des génomes?