Atelier Phylogénomique PanOCT

From silico.biotoul.fr

(Difference between revisions)

Current revision as of 16:06, 30 November 2022

Liens

retour à Atelier Phylogénomique
panoct project

Présentation

Pan-genome Ortholog Clustering Tool, est un programme écrit en PERL pour l'analyse pan-génomique d'espèces ou de souches procaryotes étroitement apparentées. Contrairement aux programmes traditionnels de détection d'orthologues basés sur des graphes, il utilise la micro-synténie ou le voisinage de gènes conservés (CGN) en plus de l'homologie pour placer avec précision les protéines dans des groupes orthologues.

Vous trouverez le package dans le repertoire suivant:

/home/formation/public_html/M2_Phylogenomique/PanOCT/panoct_v3.23/

Test:

MSK

Mise en œuvre

Préparation des fichiers d'entrée de PanOCT

srun --pty bash
mkdir -p ~/work/Prochlorococcus/panoct/results

gene.att

ls /home/formation/work/Prochlorococcus

Créer un fichier avec les coordonnées, noms, fonction et souches des gènes.

cd ~/work/Prochlorococcus
for file in peptide/*.faa
do
 prefix=$(basename $file .faa)
 echo "~/work/scripts/prokkagff2panoct.pl --gffdir prokka/$prefix --output prokka/$prefix/$prefix.tab"
 ~/work/scripts/prokkagff2panoct.pl --gffdir prokka/$prefix --output panoct/results/$prefix.tab
done
 
ls panoct/results/*.tab

cat panoct/results/*.tab > panoct/results/combined.att
head panoct/results/combined.att

tags.txt

Liste des souches à analyser.

for i in peptide/*.faa
  do      
  echo $(basename $i .faa)
done > panoct/results/genomes.list
cat panoct/results/genomes.list

peptides

Concaténer les fichier peptides dans un seul fichier.

cat peptide/*.faa > panoct/results/combined.fasta
 
head panoct/results/combined.fasta

blast.txt

Concaténer les résultats des blastp dans un seul fichier.

cat BlastP/*.tab > panoct/results/combined.blast
 
head panoct/results/combined.blast

run panOCT

panoct.pl: avec les paramètres par défaut.

 -t: name of btab (wublast-style or ncbi -m8 or -m9) input file [REQUIRED]
 -f: file containing unique genome identifier tags [REQUIRED]
 -g: gene attribute file (asmbl_id<tab>protein_identifier<tab>end5<tab>end3<tab>annotation<tab>genome_tag)
 -P: name of concatinated .pep file [REQUIRED to calc protein lengths]

La commande:

/home/formation/public_html/M2_Phylogenomique/PanGenomePipeline/PanGenomePipeline-master/pangenome/bin/panoct.pl -b results -t combined.blast -f genomes.list -g combined.att -P combined.fasta -S yes -L 1 -M Y -H Y -V Y -N Y -F 1.33 -G y -c 0,50,95,100 -T

Lancer avec sbatch et un script du type "panoct_P.csh" (les chemins sont à changer).

sbatch ~/work/scripts/panoct_P.csh
squeue -l -u $USER

retour à Atelier Phylogénomique

@@ Line 1: / Line 1: @@
 ==Liens==
-*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#PanOCT PanOCT]
+*retour à [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#PanOCT Atelier Phylogénomique]
 *[https://sourceforge.net/projects/panoct/ panoct project]
@@ Line 19: / Line 19: @@
 ==Mise en œuvre==
 ====Préparation des fichiers d'entrée de PanOCT====
-<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+<source lang='bash'>
 srun --pty bash
 mkdir -p ~/work/Prochlorococcus/panoct/results
-</pre>
+</source>
 =====gene.att=====
   ls /home/formation/work/Prochlorococcus
 Créer un fichier avec les coordonnées, noms, fonction et souches des gènes.
-<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+<source lang='bash'>
 cd ~/work/Prochlorococcus
 for file in peptide/*.faa
@@ Line 37: / Line 37: @@
 ls panoct/results/*.tab
-</pre>
+</source>
-<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+<source lang='bash'>
 cat panoct/results/*.tab > panoct/results/combined.att
 head panoct/results/combined.att
-</pre>
+</source>
 =====tags.txt=====
 Liste des souches à analyser.
-<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+<source lang='bash'>
 for i in peptide/*.faa
-do
+  do
-echo $(basename $i .faa)
+  echo $(basename $i .faa)
 done > panoct/results/genomes.list
 cat panoct/results/genomes.list
-</pre>
+</source>
 =====peptides=====
 Concaténer les fichier peptides dans un seul fichier.
-<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+<source lang='bash'>
 cat peptide/*.faa > panoct/results/combined.fasta
 head panoct/results/combined.fasta
-</pre>
+</source>
 =====blast.txt=====
 Concaténer les résultats des blastp dans un seul fichier.
-<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+<source lang='bash'>
 cat BlastP/*.tab > panoct/results/combined.blast
 head panoct/results/combined.blast
-</pre>
+</source>
 ====run panOCT====
@@ Line 79: / Line 79: @@
 </pre>
 La commande:
-<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+<source lang='bash'>
 /home/formation/public_html/M2_Phylogenomique/PanGenomePipeline/PanGenomePipeline-master/pangenome/bin/panoct.pl -b results -t combined.blast -f genomes.list -g combined.att -P combined.fasta -S yes -L 1 -M Y -H Y -V Y -N Y -F 1.33 -G y -c 0,50,95,100 -T
-</pre>
+</source>
 Lancer avec sbatch et un script du type "[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/scripts/panoct_P.csh panoct_P.csh]" (les chemins sont à changer).
-<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+<source lang='bash'>
 sbatch ~/work/scripts/panoct_P.csh
 squeue -l -u $USER
-</pre>
+</source>
 ----
-*[http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#PanOCT PanOCT]
+*retour à [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#PanOCT Atelier Phylogénomique]