silico.biotoul.fr
 

Atelier Phylogénomique Conservation entre souches

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Created page with '==Liens== *[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique Atelier de Phylogénomique]')
m (Liens)
Line 1: Line 1:
==Liens==
==Liens==
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique Atelier de Phylogénomique]
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique Atelier de Phylogénomique]
 +
==Genome pairs==
 +
===BlastN par pairs===
 +
Afin d'estimer les conservations entre les différents génomes, nous allons les comparer par paire de génomes dans l'ordre suivant, à l'aide de ''blastn'':
 +
<pre>
 +
'Aaab', 'Aaag', 'Aaaj', 'Aaaf', 'Aaak', 'Aaae', 'Aaai', 'Aaad', 'Aaaa', 'Aaah', 'Aaal', 'Aaac'
 +
</pre>
 +
Les résultats sont dans le repertoire:
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
mkdir ~/work/Prochlorococcus/BlastN
 +
</pre>
 +
Nous allons utiliser l'option ''BLAST-2-Sequences'' de blastn en précisant -subject <File_In>.
 +
 +
Exemple avec une paire de génomes:
 +
<pre style="color:green;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
search_module blast
 +
 +
srun --pty bash
 +
module load bioinfo/ncbi-blast-2.7.1+
 +
blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaab.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaag.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab
 +
</pre>
 +
Nous allons exécuter la même commande sur toutes les paires consécutives de génomes dans l'ordre listés ci-dessus. Nous allons utiliser ''sarray'' pour soumettre ces commandes en même temps sur le cluster. Vous pouvez vous référer à "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/ pour vous aider dans cette tâche.
 +
 +
Nous allons écrire un script shell pour créer le fichier à soumettre par ''sarray''.
 +
# Dans un premier temps vous devez utiliser une boucle ''for'' pour construire les paires de génomes adjacents dans la liste ci-dessus.
 +
# et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes.
 +
MSK
 +
<syntaxhighlight lang="bash">
 +
left=""
 +
for i in 'Aaab' 'Aaag' 'Aaaj' 'Aaaf' 'Aaak' 'Aaae' 'Aaai' 'Aaad' 'Aaaa' 'Aaah' 'Aaal' 'Aaac'
 +
do     
 +
  if [ "$left" != "" ];
 +
  then
 +
    output="~/work/Prochlorococcus/BlastN/"$left"_vs_"$i.tab
 +
    echo "module load bioinfo/ncbi-blast-2.7.1+; blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$left.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$i.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out $output";
 +
  fi   
 +
  left=$i;
 +
done > blastn_pairs.sh
 +
</syntaxhighlight>
 +
 +
Vérifier le script et lancer le avec ''sarray''
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
cat blastn_pairs.sh
 +
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blastn_pairs.sh
 +
</pre>
 +
Vérifier l'exécution des blastn
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
squeue -l -u <user>
 +
</pre>
 +
Lister les fichiers obtenus:
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
ls -l ~/work/Prochlorococcus/BlastN
 +
</pre>
 +
 +
===genoplotR===
 +
Nous allons utiliser [http://genoplotr.r-forge.r-project.org/ genoplotR] pour visualiser les similarités entre les paires de génomes.
 +
====Installation du package genoPlotR====
 +
<pre style="color:purple;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
srun --pty bash
 +
module load system/R-3.5.1
 +
R
 +
install.packages('genoPlotR')
 +
...
 +
* installing *source* package ‘genoPlotR’ ...
 +
library(genoPlotR)
 +
</pre>
 +
Sélectionner ''France (Lyon 2) [https]'' comme miroir CRAN.
 +
====Mise en œuvre====
 +
genoplotR nécessite plusieurs objets:
 +
*dna_seg: un objet dna_seg est un ensemble de gènes ou d'éléments le long d'un génome, à représenter sur une carte. Nous allons utiliser les fichiers en format gbk créés par prokka.
 +
*comparison: une comparaison est un ensemble de similitudes, représentant la comparaison entre deux segments d'ADN. Nous allons utiliser les résultats des blastn entre paires de genomes.
 +
*annotation: un objet d'annotation est utilisé pour annoter un segment d'ADN. Nous ne l'utilisons pas ici.
 +
*tree: un arbre au format Newick qui peut être analysé à l'aide du paquetage ade4. Nous l'utiliserons plus tard!
 +
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
mkdir ~/work/Prochlorococcus/images
 +
srun --pty bash
 +
module load system/R-3.5.1
 +
Rscript ~/work/scripts/genoplot_blastn_links.R
 +
</pre>
 +
Pour visualiser les fichiers pdf, il est préférable d'utiliser votre machine en P0. Pensez à faire des rsync avant! Placez-vous dans le répertoire racine de votre TD (au dessus de work).
 +
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
evince work/Prochlorococcus/images/genoplot_blastn_links.pdf
 +
</pre>
 +
 +
===ACT===
 +
Il est également possible d'utiliser le logiciel ''act'' ([ftp://ftp.sanger.ac.uk/pub/resources/software/act/act.pdf documentation]).
 +
<!--
 +
Copier les fichiers sur votre porte de travail en P0 et lancer :
 +
<pre style="color:grey;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
act work/Prochlorococcus/prokka/Aaab/Aaab.gbk work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab work/Prochlorococcus/prokka/Aaag/Aaag.gbk
 +
</pre>
 +
Vous pouvez aussi utiliser les fichiers en format gff.
 +
<pre style="color:grey;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
act work/Prochlorococcus/prokka/Aaab/Aaab.gff work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab work/Prochlorococcus/prokka/Aaag/Aaag.gff work/Prochlorococcus/BlastN/Aaag_vs_Aaaj.tab work/Prochlorococcus/prokka/Aaaj/Aaaj.gff work/Prochlorococcus/BlastN/Aaaj_vs_Aaaf.tab work/Prochlorococcus/prokka/Aaaf/Aaaf.gff work/Prochlorococcus/BlastN/Aaaf_vs_Aaak.tab work/Prochlorococcus/prokka/Aaak/Aaak.gff
 +
</-->
 +
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
Question 1.3:
 +
Commentez les résultats obtenus avec genoplotR.
 +
Que pensez-vous de la conservation des séquences des génomes?
 +
</pre>

Revision as of 13:35, 14 October 2021

Contents

Liens

Genome pairs

BlastN par pairs

Afin d'estimer les conservations entre les différents génomes, nous allons les comparer par paire de génomes dans l'ordre suivant, à l'aide de blastn:

'Aaab', 'Aaag', 'Aaaj', 'Aaaf', 'Aaak', 'Aaae', 'Aaai', 'Aaad', 'Aaaa', 'Aaah', 'Aaal', 'Aaac'

Les résultats sont dans le repertoire:

mkdir ~/work/Prochlorococcus/BlastN

Nous allons utiliser l'option BLAST-2-Sequences de blastn en précisant -subject <File_In>.

Exemple avec une paire de génomes:

search_module blast

srun --pty bash 
module load bioinfo/ncbi-blast-2.7.1+
blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaab.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaag.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab

Nous allons exécuter la même commande sur toutes les paires consécutives de génomes dans l'ordre listés ci-dessus. Nous allons utiliser sarray pour soumettre ces commandes en même temps sur le cluster. Vous pouvez vous référer à "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/ pour vous aider dans cette tâche.

Nous allons écrire un script shell pour créer le fichier à soumettre par sarray.

  1. Dans un premier temps vous devez utiliser une boucle for pour construire les paires de génomes adjacents dans la liste ci-dessus.
  2. et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes.

MSK

left=""
for i in 'Aaab' 'Aaag' 'Aaaj' 'Aaaf' 'Aaak' 'Aaae' 'Aaai' 'Aaad' 'Aaaa' 'Aaah' 'Aaal' 'Aaac'
do      
  if [ "$left" != "" ]; 
  then
    output="~/work/Prochlorococcus/BlastN/"$left"_vs_"$i.tab
    echo "module load bioinfo/ncbi-blast-2.7.1+; blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$left.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$i.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out $output";
  fi     
  left=$i; 
done > blastn_pairs.sh

Vérifier le script et lancer le avec sarray

cat blastn_pairs.sh
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blastn_pairs.sh

Vérifier l'exécution des blastn

squeue -l -u <user>

Lister les fichiers obtenus:

ls -l ~/work/Prochlorococcus/BlastN

genoplotR

Nous allons utiliser genoplotR pour visualiser les similarités entre les paires de génomes.

Installation du package genoPlotR

srun --pty bash
module load system/R-3.5.1
R
install.packages('genoPlotR')
...
* installing *source* package ‘genoPlotR’ ...
library(genoPlotR)

Sélectionner France (Lyon 2) [https] comme miroir CRAN.

Mise en œuvre

genoplotR nécessite plusieurs objets:

  • dna_seg: un objet dna_seg est un ensemble de gènes ou d'éléments le long d'un génome, à représenter sur une carte. Nous allons utiliser les fichiers en format gbk créés par prokka.
  • comparison: une comparaison est un ensemble de similitudes, représentant la comparaison entre deux segments d'ADN. Nous allons utiliser les résultats des blastn entre paires de genomes.
  • annotation: un objet d'annotation est utilisé pour annoter un segment d'ADN. Nous ne l'utilisons pas ici.
  • tree: un arbre au format Newick qui peut être analysé à l'aide du paquetage ade4. Nous l'utiliserons plus tard!
mkdir ~/work/Prochlorococcus/images
srun --pty bash
module load system/R-3.5.1
Rscript ~/work/scripts/genoplot_blastn_links.R

Pour visualiser les fichiers pdf, il est préférable d'utiliser votre machine en P0. Pensez à faire des rsync avant! Placez-vous dans le répertoire racine de votre TD (au dessus de work).

evince work/Prochlorococcus/images/genoplot_blastn_links.pdf

ACT

Il est également possible d'utiliser le logiciel act (documentation).

Question 1.3:
Commentez les résultats obtenus avec genoplotR.
Que pensez-vous de la conservation des séquences des génomes?