silico.biotoul.fr
 

Atelier Phylogénomique Prokka

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Liens)
m (Visualisation des annotations)
 
(11 intermediate revisions not shown)
Line 1: Line 1:
==Liens==
==Liens==
-
*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Prokka Atelier de Phylogénomique Prokka]
+
*retour à [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Prokka Atelier de Phylogénomique Prokka]
*[http://www.vicbioinformatics.com/software.prokka.shtml prokka]
*[http://www.vicbioinformatics.com/software.prokka.shtml prokka]
Line 6: Line 6:
Les réplicons des génomes sont annotés avec le logiciel [http://www.vicbioinformatics.com/software.prokka.shtml prokka].
Les réplicons des génomes sont annotés avec le logiciel [http://www.vicbioinformatics.com/software.prokka.shtml prokka].
 +
SG MSK
 +
<!--
[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka prokka files].
[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka prokka files].
-
 
+
-->
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
Question 1.1:
Question 1.1:
Line 14: Line 16:
Quels sont les logiciels utilisés pour réaliser ces annotations ?
Quels sont les logiciels utilisés pour réaliser ces annotations ?
</pre>
</pre>
 +
==Exemple d'utilisation==
==Exemple d'utilisation==
Nous allons créer un répertoire pour les résultats de prokka et chercher la dernière version disponible de prokka sur le serveur.
Nous allons créer un répertoire pour les résultats de prokka et chercher la dernière version disponible de prokka sur le serveur.
-
<pre style="color:purple;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+
<source lang='bash'>
mkdir -p ~/work/Prochlorococcus/prokka
mkdir -p ~/work/Prochlorococcus/prokka
search_module prokka
search_module prokka
-
</pre>
+
</source>
-
<pre style="color:green;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+
<source lang='bash'>
srun --pty bash
srun --pty bash
module load bioinfo/prokka-1.14.5
module load bioinfo/prokka-1.14.5
prokka  /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaaa.fas  --outdir ~/work/Prochlorococcus/prokka/Aaaa --compliant --addgenes --prefix Aaaa  --locustag Aaaa.g --genus Prochlorococcus --species 'Prochlorococcus marinus subsp. marinus' --strain CCMP1375 --kingdom Bacteria --cpus 2
prokka  /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaaa.fas  --outdir ~/work/Prochlorococcus/prokka/Aaaa --compliant --addgenes --prefix Aaaa  --locustag Aaaa.g --genus Prochlorococcus --species 'Prochlorococcus marinus subsp. marinus' --strain CCMP1375 --kingdom Bacteria --cpus 2
-
</pre>
+
</source>
 +
À la fin du programme, '''déconnectez-vous du nœud''' (exit) pour revenir au frontal ''genologin2''.
 +
 
Le programme génère plusieurs fichiers pour chaque réplicon (~/work/Prochlorococcus/prokka/Aaaa), dont:
Le programme génère plusieurs fichiers pour chaque réplicon (~/work/Prochlorococcus/prokka/Aaaa), dont:
*annotation en format GenBank [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka/Aaaa/AaaaA01.gbk AaaaA01.gbk]
*annotation en format GenBank [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka/Aaaa/AaaaA01.gbk AaaaA01.gbk]
Line 32: Line 37:
*les peptides [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka/Aaaa/AaaaA01.faa AaaaA01.faa]
*les peptides [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka/Aaaa/AaaaA01.faa AaaaA01.faa]
*les séquences des CDS [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka/Aaaa/AaaaA01.ffn AaaaA01.ffn]
*les séquences des CDS [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka/Aaaa/AaaaA01.ffn AaaaA01.ffn]
 +
 +
N'oubliez pas de synchroniser les répertoires de ''genotoul'' et de  votre poste de travail.
 +
<source lang='bash'>
 +
rsync --archive --itemize-changes --stats -h -e ssh <user>@genologin.toulouse.inra.fr:/home/<user>/work/Prochlorococcus work
 +
</source>
==Automatisation des annotations ''prokka'' sur l'ensemble des génomes==
==Automatisation des annotations ''prokka'' sur l'ensemble des génomes==
Line 40: Line 50:
Le script ''prokka_loop.pl'' doit être lancé sur le serveur ''genologin''. Il distribue ''prokka'' sur les noeuds avec sbatch.
Le script ''prokka_loop.pl'' doit être lancé sur le serveur ''genologin''. Il distribue ''prokka'' sur les noeuds avec sbatch.
-
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+
<source lang='bash'>
cd ~/work/Prochlorococcus
cd ~/work/Prochlorococcus
~/work/scripts/prokka_loop.pl --sample Prochlorococcus
~/work/scripts/prokka_loop.pl --sample Prochlorococcus
-
squeue -l -u <user>
+
squeue -l -u $USER
-
</pre>
+
</source>
Une fois les jobs terminés, vérifiez que les fichiers de sortie de ''prokka'' existent et ne sont pas vides.
Une fois les jobs terminés, vérifiez que les fichiers de sortie de ''prokka'' existent et ne sont pas vides.
-
<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+
<source lang='bash'>
-
ls -l ~/work/Prochlorococcus/prokka/Aaa*/*.faa
+
ls -l ~/work/Prochlorococcus/prokka/Aaa*/*.txt
-
</pre>
+
</source>
Les fichiers avec le suffixe ''.err'' renferment la sortie standard de ''prokka''. Si tout s'est bien passé, vous pouvez supprimer les fichiers ''.err'' et ''.sh''.
Les fichiers avec le suffixe ''.err'' renferment la sortie standard de ''prokka''. Si tout s'est bien passé, vous pouvez supprimer les fichiers ''.err'' et ''.sh''.
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
Line 60: Line 70:
==Visualisation des annotations==
==Visualisation des annotations==
-
Nous pouvons utiliser le logiciel ''art'' ([https://www.sanger.ac.uk/science/tools/artemis Artemis]) pour visualiser les annotations des génomes:
+
Nous pouvons utiliser le logiciel ''art'' ([https://www.sanger.ac.uk/science/tools/artemis Artemis]) pour visualiser les annotations des génomes (fichiers ''.gbk'').
Il est fortement recommandé d'utiliser ce logiciel en local sur votre poste de travail.
Il est fortement recommandé d'utiliser ce logiciel en local sur votre poste de travail.
Line 69: Line 79:
</pre>
</pre>
-->
-->
 +
 +
----
 +
*retour à [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Prokka Atelier de Phylogénomique]

Current revision as of 10:11, 30 November 2022

Contents

Liens

Introduction

Les réplicons des génomes sont annotés avec le logiciel prokka.

SG MSK

Question 1.1:
Pourquoi pensez-vous qu'il soit nécessaire d'annoter les génomes téléchargés du NCBI?
Quelles sont les annotations réalisées par Prokka?
Quels sont les logiciels utilisés pour réaliser ces annotations ?

Exemple d'utilisation

Nous allons créer un répertoire pour les résultats de prokka et chercher la dernière version disponible de prokka sur le serveur.

mkdir -p ~/work/Prochlorococcus/prokka
 
search_module prokka
srun --pty bash
module load bioinfo/prokka-1.14.5
prokka  /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaaa.fas  --outdir ~/work/Prochlorococcus/prokka/Aaaa --compliant --addgenes --prefix Aaaa  --locustag Aaaa.g --genus Prochlorococcus --species 'Prochlorococcus marinus subsp. marinus' --strain CCMP1375 --kingdom Bacteria --cpus 2

À la fin du programme, déconnectez-vous du nœud (exit) pour revenir au frontal genologin2.

Le programme génère plusieurs fichiers pour chaque réplicon (~/work/Prochlorococcus/prokka/Aaaa), dont:

N'oubliez pas de synchroniser les répertoires de genotoul et de votre poste de travail.

rsync --archive --itemize-changes --stats -h -e ssh <user>@genologin.toulouse.inra.fr:/home/<user>/work/Prochlorococcus work

Automatisation des annotations prokka sur l'ensemble des génomes

Les informations sur les génomes sont disponibles dans le fichier : species_strain_names.txt. Ce fichier est lu par le script Perl prokka_loop.pl pour compléter les paramètres de prokka pour chaque génome (--prefix, --locustag, --genus, --species, --strain and --kingdom).

Le script prokka_loop.pl doit être lancé sur le serveur genologin. Il distribue prokka sur les noeuds avec sbatch.

cd ~/work/Prochlorococcus
~/work/scripts/prokka_loop.pl --sample Prochlorococcus
 
squeue -l -u $USER

Une fois les jobs terminés, vérifiez que les fichiers de sortie de prokka existent et ne sont pas vides.

ls -l ~/work/Prochlorococcus/prokka/Aaa*/*.txt

Les fichiers avec le suffixe .err renferment la sortie standard de prokka. Si tout s'est bien passé, vous pouvez supprimer les fichiers .err et .sh.

Question 1.2:
Comparez le nombre de gènes obtenus avec ceux reportés dans la publication (Table 1) et commentez les différences observées.
Comment faire pour comparer les annotations de prokka avec celles des fichiers GenBank?
Pensez-vous que prokka soit la meilleure méthode d'annotation? 
Comment pourriez-vous faire pour évaluer les performances des différentes méthodes d'annotation des génomes?

Visualisation des annotations

Nous pouvons utiliser le logiciel art (Artemis) pour visualiser les annotations des génomes (fichiers .gbk).

Il est fortement recommandé d'utiliser ce logiciel en local sur votre poste de travail.