silico.biotoul.fr
 

Atelier Phylogénomique OrthoFinder

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m (Vue d'ensemble)
m (Vue d'ensemble)
Line 52: Line 52:
cat ~/work/OrthoFinder/Prochlorococcus/OrthoFinder/Results_*/Comparative_Genomics_Statistics/Statistics_PerSpecies.tsv
cat ~/work/OrthoFinder/Prochlorococcus/OrthoFinder/Results_*/Comparative_Genomics_Statistics/Statistics_PerSpecies.tsv
</pre>
</pre>
 +
 +
Un critère pour évaluer la qualité des groupes de gènes orthologues est de calculer le nombre de paralogues par OG. Cette information est présente dans le fichier ''Duplications_per_Orthogroup.tsv''.
 +
<pre style="color:purple;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 +
cat ~/work/OrthoFinder/Prochlorococcus/OrthoFinder/Results_*/Comparative_Genomics_Statistics/Duplications_per_Orthogroup.tsv | awk '
 +
BEGIN{ bin_width=1; nb=0 }
 +
{
 +
  if ( $1 ~ /OG/ ) {
 +
      bin=int($2/bin_width );
 +
      if(bin in hist){hist[bin]+=1} else {hist[bin]=1}
 +
      nb=nb+1;
 +
  }
 +
}
 +
END{
 +
    for (h in hist )
 +
        printf " * > %2.2f  ->  %i %f\n", h*bin_width, hist[h], hist[h]/nb
 +
}' | sort -n -k 3
 +
</pre>
 +
 +
Le fichier ''Orthogroups_SpeciesOverlaps.tsv'' est un fichier texte séparé par des tabulations qui contient le nombre d'orthogroupes partagés entre chaque paire d'espèces sous forme de matrice carrée.

Revision as of 08:41, 13 October 2021

Contents

Liens

Paramètres

Nous allons utiliser le programme OrthoFinder avec les paramètres par défaut (config.json].

  • diamond: sequence search program
  • DendroBLAST: gene tree inference

Mais vous pouvez utiliser n'importe quel programme d'alignement, de reconstruction d'arbre ou de comparaison de séquences que vous préférez. Pour utiliser un autre programme, il suffit de modifier le fichier de configuration appelé config.json dans le répertoire orthofinder. Le mieux est de créer un fichier au même format appelé config_orthofinder_user.json dans votre répertoire utilisateur.

/usr/local/bioinfo/src/OrthoFinder/OrthoFinder-2.5.2/config.json

Mise en œuvre

Nous utilisons le script donné en exemple dans /usr/local/bioinfo/src/OrthoFinder/example_on_cluster comme modèle.

Créer un répertoire ~/work/OrthoFinder et copier le script test_OrthoFinder-2.5.2.sh dans ce répertoire.

cp /usr/local/bioinfo/src/OrthoFinder/example_on_cluster/test_OrthoFinder-2.5.2.sh prochlo_OrthoFinder-2.5.2.sh

Créer un sous-répertoire Prochlorococcus et copier les fichiers peptides issues de Prokka dans ce repertoire.

cp ~/work/Prochlorococcus/peptide/*.faa Prochlorococcus/.

Le script copié est édité pour changer le repertoire de travail.

sbatch prochlo_OrthoFinder-2.5.2.sh

squeue -l -u <fleure>

Par défaut, OrthoFinder crée un répertoire OrthoFinder dans le répertoire du protéome d'entrée (Prochlorococcus) et y place les résultats.

Fichiers de sorties

ll ~/work/OrthoFinder/Prochlorococcus/OrthoFinder/Results_*

OrthoFinder produit un ensemble de fichiers décrivant

  • les orthogroupes,
  • les orthologues,
  • les arbres gènes,
  • les arbres gènes avec les évènements de duplications/délétions,
  • l'arbre des espèces enracinées,
  • les événements de duplication de gènes,
  • les statistiques de génomiques comparatives pour toutes les espèces analysées.

Remarque: les fichiers .tsv d'OrthoFinder peuvent être visualisés dans un tableur comme Excel ou LibreOffice Calc.

Vue d'ensemble

Nous avons u résumé de l'analyse réalisée dans le fichier Statistics_Overall.tsv.

cat ~/work/OrthoFinder/Prochlorococcus/OrthoFinder/Results_*/Comparative_Genomics_Statistics/Statistics_Overall.tsv

La première chose à vérifier est de savoir combien de gènes ont été assignés à des orthogroupes. En général, il est bon de voir au moins 80% des gènes assignés à des orthogroupes.

Nous pouvons également obtenir les statistiques pour chaque souche.

cat ~/work/OrthoFinder/Prochlorococcus/OrthoFinder/Results_*/Comparative_Genomics_Statistics/Statistics_PerSpecies.tsv

Un critère pour évaluer la qualité des groupes de gènes orthologues est de calculer le nombre de paralogues par OG. Cette information est présente dans le fichier Duplications_per_Orthogroup.tsv.

cat ~/work/OrthoFinder/Prochlorococcus/OrthoFinder/Results_*/Comparative_Genomics_Statistics/Duplications_per_Orthogroup.tsv | awk '
BEGIN{ bin_width=1; nb=0 }
{
   if ( $1 ~ /OG/ ) { 
      bin=int($2/bin_width );
      if(bin in hist){hist[bin]+=1} else {hist[bin]=1}
      nb=nb+1;
   }
}
END{
    for (h in hist )
        printf " * > %2.2f  ->  %i %f\n", h*bin_width, hist[h], hist[h]/nb
}' | sort -n -k 3

Le fichier Orthogroups_SpeciesOverlaps.tsv est un fichier texte séparé par des tabulations qui contient le nombre d'orthogroupes partagés entre chaque paire d'espèces sous forme de matrice carrée.