silico.biotoul.fr
 

Atelier Phylogénomique Conservation entre souches

From silico.biotoul.fr

Revision as of 15:14, 5 December 2022 by Quentin (Talk | contribs)
(diff) ← Older revision | Current revision (diff) | Newer revision → (diff)
Jump to: navigation, search

Contents

Liens

Genome pairs

BlastN par pairs

Afin d'estimer les conservations entre les différents génomes, nous allons les comparer par paire de génomes dans l'ordre suivant, à l'aide de blastn:

'Aaab', 'Aaag', 'Aaaj', 'Aaaf', 'Aaak', 'Aaae', 'Aaai', 'Aaad', 'Aaaa', 'Aaah', 'Aaal', 'Aaac'

Les résultats sont dans le repertoire:

mkdir ~/work/Prochlorococcus/BlastN

Nous allons utiliser l'option BLAST-2-Sequences de blastn en précisant -subject <File_In>.

Une paire de génomes

Exemple avec une paire de génomes:

search_module blast
 
srun --pty bash 
module load bioinfo/ncbi-blast-2.7.1+
blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaab.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaag.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab

À la fin du programme, déconnectez-vous du nœud (exit) pour revenir au frontal genologin2.

Toutes les paires de génomes

Nous allons exécuter la même commande sur toutes les paires consécutives de génomes dans l'ordre listés ci-dessus. Nous allons utiliser sarray pour soumettre ces commandes en même temps sur le cluster. Vous pouvez vous référer à "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/ pour vous aider dans cette tâche.

Nous allons écrire un script shell pour créer le fichier à soumettre par sarray.

  1. Dans un premier temps vous devez utiliser une boucle for pour construire les paires de génomes adjacents dans la liste ci-dessus.
  2. et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes.

MSK

left=""
for i in 'Aaab' 'Aaag' 'Aaaj' 'Aaaf' 'Aaak' 'Aaae' 'Aaai' 'Aaad' 'Aaaa' 'Aaah' 'Aaal' 'Aaac'
do      
  if [ "$left" != "" ]; 
  then
    output="~/work/Prochlorococcus/BlastN/"$left"_vs_"$i.tab
    echo "module load bioinfo/ncbi-blast-2.7.1+; blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$left.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$i.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out $output";
  fi     
  left=$i; 
done > blastn_pairs.sh


Vérifier le script et lancer le avec sarray

cat blastn_pairs.sh
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blastn_pairs.sh

Vérifier l'exécution des blastn

squeue -l -u <user>

Lister les fichiers obtenus:

ls -l ~/work/Prochlorococcus/BlastN

genoplotR

Nous allons utiliser genoplotR pour visualiser les similarités entre les paires de génomes.

Installation du package genoPlotR

srun --pty bash
module load system/R-3.5.1
R
install.packages('genoPlotR')
...
* installing *source* package ‘genoPlotR’ ...
library(genoPlotR)

Sélectionner France (Lyon 2) [https] comme miroir CRAN.

Mise en œuvre

genoplotR nécessite plusieurs objets:

  • dna_seg: un objet dna_seg est un ensemble de gènes ou d'éléments le long d'un génome, à représenter sur une carte. Nous allons utiliser les fichiers en format gbk créés par prokka.
  • comparison: une comparaison est un ensemble de similitudes, représentant la comparaison entre deux segments d'ADN. Nous allons utiliser les résultats des blastn entre paires de genomes.
  • annotation: un objet d'annotation est utilisé pour annoter un segment d'ADN. Nous ne l'utilisons pas ici.
  • tree: un arbre au format Newick qui peut être analysé à l'aide du paquetage ade4. Nous l'utiliserons plus tard!
mkdir ~/work/Prochlorococcus/images
srun --pty bash
module load system/R-3.5.1
Rscript ~/work/scripts/genoplot_blastn_links.R

Pour visualiser les fichiers pdf, il est préférable d'utiliser votre machine en P0. Pensez à faire des rsync avant! Placez-vous dans le répertoire racine de votre TD (au dessus de work).

evince work/Prochlorococcus/images/genoplot_blastn_links.pdf

ACT

Il est également possible d'utiliser le logiciel act (documentation).

Question 1.3:
Commentez les résultats obtenus avec genoplotR.
Que pensez-vous de la conservation des séquences des génomes?