Atelier Phylogénomique Prokka
From silico.biotoul.fr
m (→Liens) |
m (→Visualisation des annotations) |
||
(11 intermediate revisions not shown) | |||
Line 1: | Line 1: | ||
==Liens== | ==Liens== | ||
- | *[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Prokka Atelier de Phylogénomique Prokka] | + | *retour à [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Prokka Atelier de Phylogénomique Prokka] |
*[http://www.vicbioinformatics.com/software.prokka.shtml prokka] | *[http://www.vicbioinformatics.com/software.prokka.shtml prokka] | ||
Line 6: | Line 6: | ||
Les réplicons des génomes sont annotés avec le logiciel [http://www.vicbioinformatics.com/software.prokka.shtml prokka]. | Les réplicons des génomes sont annotés avec le logiciel [http://www.vicbioinformatics.com/software.prokka.shtml prokka]. | ||
+ | SG MSK | ||
+ | <!-- | ||
[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka prokka files]. | [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka prokka files]. | ||
- | + | --> | |
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
Question 1.1: | Question 1.1: | ||
Line 14: | Line 16: | ||
Quels sont les logiciels utilisés pour réaliser ces annotations ? | Quels sont les logiciels utilisés pour réaliser ces annotations ? | ||
</pre> | </pre> | ||
+ | |||
==Exemple d'utilisation== | ==Exemple d'utilisation== | ||
Nous allons créer un répertoire pour les résultats de prokka et chercher la dernière version disponible de prokka sur le serveur. | Nous allons créer un répertoire pour les résultats de prokka et chercher la dernière version disponible de prokka sur le serveur. | ||
- | < | + | <source lang='bash'> |
mkdir -p ~/work/Prochlorococcus/prokka | mkdir -p ~/work/Prochlorococcus/prokka | ||
search_module prokka | search_module prokka | ||
- | </ | + | </source> |
- | < | + | <source lang='bash'> |
srun --pty bash | srun --pty bash | ||
module load bioinfo/prokka-1.14.5 | module load bioinfo/prokka-1.14.5 | ||
prokka /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaaa.fas --outdir ~/work/Prochlorococcus/prokka/Aaaa --compliant --addgenes --prefix Aaaa --locustag Aaaa.g --genus Prochlorococcus --species 'Prochlorococcus marinus subsp. marinus' --strain CCMP1375 --kingdom Bacteria --cpus 2 | prokka /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaaa.fas --outdir ~/work/Prochlorococcus/prokka/Aaaa --compliant --addgenes --prefix Aaaa --locustag Aaaa.g --genus Prochlorococcus --species 'Prochlorococcus marinus subsp. marinus' --strain CCMP1375 --kingdom Bacteria --cpus 2 | ||
- | </ | + | </source> |
+ | À la fin du programme, '''déconnectez-vous du nœud''' (exit) pour revenir au frontal ''genologin2''. | ||
+ | |||
Le programme génère plusieurs fichiers pour chaque réplicon (~/work/Prochlorococcus/prokka/Aaaa), dont: | Le programme génère plusieurs fichiers pour chaque réplicon (~/work/Prochlorococcus/prokka/Aaaa), dont: | ||
*annotation en format GenBank [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka/Aaaa/AaaaA01.gbk AaaaA01.gbk] | *annotation en format GenBank [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka/Aaaa/AaaaA01.gbk AaaaA01.gbk] | ||
Line 32: | Line 37: | ||
*les peptides [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka/Aaaa/AaaaA01.faa AaaaA01.faa] | *les peptides [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka/Aaaa/AaaaA01.faa AaaaA01.faa] | ||
*les séquences des CDS [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka/Aaaa/AaaaA01.ffn AaaaA01.ffn] | *les séquences des CDS [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka/Aaaa/AaaaA01.ffn AaaaA01.ffn] | ||
+ | |||
+ | N'oubliez pas de synchroniser les répertoires de ''genotoul'' et de votre poste de travail. | ||
+ | <source lang='bash'> | ||
+ | rsync --archive --itemize-changes --stats -h -e ssh <user>@genologin.toulouse.inra.fr:/home/<user>/work/Prochlorococcus work | ||
+ | </source> | ||
==Automatisation des annotations ''prokka'' sur l'ensemble des génomes== | ==Automatisation des annotations ''prokka'' sur l'ensemble des génomes== | ||
Line 40: | Line 50: | ||
Le script ''prokka_loop.pl'' doit être lancé sur le serveur ''genologin''. Il distribue ''prokka'' sur les noeuds avec sbatch. | Le script ''prokka_loop.pl'' doit être lancé sur le serveur ''genologin''. Il distribue ''prokka'' sur les noeuds avec sbatch. | ||
- | < | + | <source lang='bash'> |
cd ~/work/Prochlorococcus | cd ~/work/Prochlorococcus | ||
~/work/scripts/prokka_loop.pl --sample Prochlorococcus | ~/work/scripts/prokka_loop.pl --sample Prochlorococcus | ||
- | squeue -l -u | + | squeue -l -u $USER |
- | </ | + | </source> |
Une fois les jobs terminés, vérifiez que les fichiers de sortie de ''prokka'' existent et ne sont pas vides. | Une fois les jobs terminés, vérifiez que les fichiers de sortie de ''prokka'' existent et ne sont pas vides. | ||
- | < | + | <source lang='bash'> |
- | ls -l ~/work/Prochlorococcus/prokka/Aaa*/*. | + | ls -l ~/work/Prochlorococcus/prokka/Aaa*/*.txt |
- | </ | + | </source> |
Les fichiers avec le suffixe ''.err'' renferment la sortie standard de ''prokka''. Si tout s'est bien passé, vous pouvez supprimer les fichiers ''.err'' et ''.sh''. | Les fichiers avec le suffixe ''.err'' renferment la sortie standard de ''prokka''. Si tout s'est bien passé, vous pouvez supprimer les fichiers ''.err'' et ''.sh''. | ||
<pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap"> | ||
Line 60: | Line 70: | ||
==Visualisation des annotations== | ==Visualisation des annotations== | ||
- | Nous pouvons utiliser le logiciel ''art'' ([https://www.sanger.ac.uk/science/tools/artemis Artemis]) pour visualiser les annotations des génomes | + | Nous pouvons utiliser le logiciel ''art'' ([https://www.sanger.ac.uk/science/tools/artemis Artemis]) pour visualiser les annotations des génomes (fichiers ''.gbk''). |
Il est fortement recommandé d'utiliser ce logiciel en local sur votre poste de travail. | Il est fortement recommandé d'utiliser ce logiciel en local sur votre poste de travail. | ||
Line 69: | Line 79: | ||
</pre> | </pre> | ||
--> | --> | ||
+ | |||
+ | ---- | ||
+ | *retour à [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Prokka Atelier de Phylogénomique] |
Current revision as of 10:11, 30 November 2022
Contents |
Liens
- retour à Atelier de Phylogénomique Prokka
- prokka
Introduction
Les réplicons des génomes sont annotés avec le logiciel prokka.
SG MSK
Question 1.1: Pourquoi pensez-vous qu'il soit nécessaire d'annoter les génomes téléchargés du NCBI? Quelles sont les annotations réalisées par Prokka? Quels sont les logiciels utilisés pour réaliser ces annotations ?
Exemple d'utilisation
Nous allons créer un répertoire pour les résultats de prokka et chercher la dernière version disponible de prokka sur le serveur.
mkdir -p ~/work/Prochlorococcus/prokka search_module prokka
srun --pty bash module load bioinfo/prokka-1.14.5 prokka /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaaa.fas --outdir ~/work/Prochlorococcus/prokka/Aaaa --compliant --addgenes --prefix Aaaa --locustag Aaaa.g --genus Prochlorococcus --species 'Prochlorococcus marinus subsp. marinus' --strain CCMP1375 --kingdom Bacteria --cpus 2
À la fin du programme, déconnectez-vous du nœud (exit) pour revenir au frontal genologin2.
Le programme génère plusieurs fichiers pour chaque réplicon (~/work/Prochlorococcus/prokka/Aaaa), dont:
- annotation en format GenBank AaaaA01.gbk
- annotation en format gff AaaaA01.gff
- annotation en format tabulé AaaaA01.tbl
- les peptides AaaaA01.faa
- les séquences des CDS AaaaA01.ffn
N'oubliez pas de synchroniser les répertoires de genotoul et de votre poste de travail.
rsync --archive --itemize-changes --stats -h -e ssh <user>@genologin.toulouse.inra.fr:/home/<user>/work/Prochlorococcus work
Automatisation des annotations prokka sur l'ensemble des génomes
Les informations sur les génomes sont disponibles dans le fichier : species_strain_names.txt. Ce fichier est lu par le script Perl prokka_loop.pl pour compléter les paramètres de prokka pour chaque génome (--prefix, --locustag, --genus, --species, --strain and --kingdom).
Le script prokka_loop.pl doit être lancé sur le serveur genologin. Il distribue prokka sur les noeuds avec sbatch.
cd ~/work/Prochlorococcus ~/work/scripts/prokka_loop.pl --sample Prochlorococcus squeue -l -u $USER
Une fois les jobs terminés, vérifiez que les fichiers de sortie de prokka existent et ne sont pas vides.
ls -l ~/work/Prochlorococcus/prokka/Aaa*/*.txt
Les fichiers avec le suffixe .err renferment la sortie standard de prokka. Si tout s'est bien passé, vous pouvez supprimer les fichiers .err et .sh.
Question 1.2: Comparez le nombre de gènes obtenus avec ceux reportés dans la publication (Table 1) et commentez les différences observées. Comment faire pour comparer les annotations de prokka avec celles des fichiers GenBank? Pensez-vous que prokka soit la meilleure méthode d'annotation? Comment pourriez-vous faire pour évaluer les performances des différentes méthodes d'annotation des génomes?
Visualisation des annotations
Nous pouvons utiliser le logiciel art (Artemis) pour visualiser les annotations des génomes (fichiers .gbk).
Il est fortement recommandé d'utiliser ce logiciel en local sur votre poste de travail.
- retour à Atelier de Phylogénomique