silico.biotoul.fr
 

Atelier Phylogénomique Conservation entre souches

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Toutes les paires de génomes)
m (Installation du package genoPlotR)
Line 62: Line 62:
Nous allons utiliser [http://genoplotr.r-forge.r-project.org/ genoplotR] pour visualiser les similarités entre les paires de génomes.
Nous allons utiliser [http://genoplotr.r-forge.r-project.org/ genoplotR] pour visualiser les similarités entre les paires de génomes.
====Installation du package genoPlotR====
====Installation du package genoPlotR====
-
<pre style="color:purple;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+
<source lang='bash'>
srun --pty bash
srun --pty bash
module load system/R-3.5.1
module load system/R-3.5.1
Line 72: Line 72:
</pre>
</pre>
Sélectionner ''France (Lyon 2) [https]'' comme miroir CRAN.
Sélectionner ''France (Lyon 2) [https]'' comme miroir CRAN.
 +
====Mise en œuvre====
====Mise en œuvre====
genoplotR nécessite plusieurs objets:
genoplotR nécessite plusieurs objets:

Revision as of 10:24, 30 November 2022

Contents

Liens

Genome pairs

BlastN par pairs

Afin d'estimer les conservations entre les différents génomes, nous allons les comparer par paire de génomes dans l'ordre suivant, à l'aide de blastn:

'Aaab', 'Aaag', 'Aaaj', 'Aaaf', 'Aaak', 'Aaae', 'Aaai', 'Aaad', 'Aaaa', 'Aaah', 'Aaal', 'Aaac'

Les résultats sont dans le repertoire:

mkdir ~/work/Prochlorococcus/BlastN

Nous allons utiliser l'option BLAST-2-Sequences de blastn en précisant -subject <File_In>.

Une paire de génomes

Exemple avec une paire de génomes:

search_module blast
 
srun --pty bash 
module load bioinfo/ncbi-blast-2.7.1+
blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaab.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaag.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab

À la fin du programme, déconnectez-vous du nœud (exit) pour revenir au frontal genologin2.

Toutes les paires de génomes

Nous allons exécuter la même commande sur toutes les paires consécutives de génomes dans l'ordre listés ci-dessus. Nous allons utiliser sarray pour soumettre ces commandes en même temps sur le cluster. Vous pouvez vous référer à "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/ pour vous aider dans cette tâche.

Nous allons écrire un script shell pour créer le fichier à soumettre par sarray.

  1. Dans un premier temps vous devez utiliser une boucle for pour construire les paires de génomes adjacents dans la liste ci-dessus.
  2. et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes.

MSK

Vérifier le script et lancer le avec sarray

cat blastn_pairs.sh
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blastn_pairs.sh

Vérifier l'exécution des blastn

squeue -l -u <user>

Lister les fichiers obtenus:

ls -l ~/work/Prochlorococcus/BlastN

genoplotR

Nous allons utiliser genoplotR pour visualiser les similarités entre les paires de génomes.

Installation du package genoPlotR

srun --pty bash
module load system/R-3.5.1
R
install.packages('genoPlotR')
...
* installing *source* package ‘genoPlotR’ ...
library(genoPlotR)
</pre>
Sélectionner ''France (Lyon 2) [https]'' comme miroir CRAN.
 
====Mise en œuvre====
genoplotR nécessite plusieurs objets:
*dna_seg: un objet dna_seg est un ensemble de gènes ou d'éléments le long d'un génome, à représenter sur une carte. Nous allons utiliser les fichiers en format gbk créés par prokka.
*comparison: une comparaison est un ensemble de similitudes, représentant la comparaison entre deux segments d'ADN. Nous allons utiliser les résultats des blastn entre paires de genomes.
*annotation: un objet d'annotation est utilisé pour annoter un segment d'ADN. Nous ne l'utilisons pas ici.
*tree: un arbre au format Newick qui peut être analysé à l'aide du paquetage ade4. Nous l'utiliserons plus tard!
 
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
mkdir ~/work/Prochlorococcus/images
srun --pty bash
module load system/R-3.5.1
Rscript ~/work/scripts/genoplot_blastn_links.R
</pre>
Pour visualiser les fichiers pdf, il est préférable d'utiliser votre machine en P0. Pensez à faire des rsync avant! Placez-vous dans le répertoire racine de votre TD (au dessus de work).
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
evince work/Prochlorococcus/images/genoplot_blastn_links.pdf
</pre>
 
===ACT===
Il est également possible d'utiliser le logiciel ''act'' ([ftp://ftp.sanger.ac.uk/pub/resources/software/act/act.pdf documentation]).
<!--
Copier les fichiers sur votre porte de travail en P0 et lancer :
<pre style="color:grey;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
act work/Prochlorococcus/prokka/Aaab/Aaab.gbk work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab work/Prochlorococcus/prokka/Aaag/Aaag.gbk
</pre>
Vous pouvez aussi utiliser les fichiers en format gff.
<pre style="color:grey;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
act work/Prochlorococcus/prokka/Aaab/Aaab.gff work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab work/Prochlorococcus/prokka/Aaag/Aaag.gff work/Prochlorococcus/BlastN/Aaag_vs_Aaaj.tab work/Prochlorococcus/prokka/Aaaj/Aaaj.gff work/Prochlorococcus/BlastN/Aaaj_vs_Aaaf.tab work/Prochlorococcus/prokka/Aaaf/Aaaf.gff work/Prochlorococcus/BlastN/Aaaf_vs_Aaak.tab work/Prochlorococcus/prokka/Aaak/Aaak.gff
</-->
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
Question 1.3:
Commentez les résultats obtenus avec genoplotR.
Que pensez-vous de la conservation des séquences des génomes?
</pre>