Atelier Phylogénomique

From silico.biotoul.fr

(Difference between revisions)

Jump to: navigation, search

Current revision as of 15:19, 11 November 2023

1 Matériel pédagogique
2 Références
3 Logiciels à installer sur vos postes de travail
4 Ressources informatiques
5 Disponibilité des génomes
6 Annotation
- 6.1 Prokka
7 Conservation de séquence entre souches de Prochlorococcus
8 Groupes de gènes orthologues
9 Analyses pan-génomiques
10 Alignement et comparaison de génomes complets
11 Analyses phylogénomiques
12 Phylogénie basée sur les séquences des ARNr
13 Arbre espèces: préparation des fichiers
14 Super-alignement (Jeudi)
15 Analyse des liens phylogénétiques des gènes du OG5 de PortMCL
16 Reconstruction d'états ancestraux
- 16.1 Introduction
17 Liens utiles
- 17.1 Mesquite

Matériel pédagogique

Support de cours : Quest for Orthologs

Support de cours : Alignements de génomes

Genome_alignments

Support de cours' : Phylogénomique

Support de cours : Reconstruction des états ancestraux des caractères

Présentation.

Présentation 'Reconstruction of ancestral traits'.
Ancestral State Reconstruction with phytools
Ancestral State Reconstruction with phytools2

anemone arome aster bleuet camelia capucine chardon clematite cobee coquelicot cosmos cyclamen dahlia digitale geranium gerbera glaieul hortensia iris jacinthe

Références

Kettler et al., PLoS Genet. 2007 Dec;3(12):e231 Patterns and implications of gene gain and loss in the evolution of Prochlorococcus.
Sun and Blanchard, 2014 Strong Genome-Wide Selection Early in the Evolution of Prochlorococcus Resulted in a Reduced Genome through the Loss of a Large Number of Small Effect Genes
Yan et al., Appl Environ Microbiol. 2018 Genome rearrangement shapes Prochlorococcus ecological adaptation.
Yan et al., mBio 2022 Diverse Subclade Differentiation Attributed to the Ubiquity of Prochlorococcus High-Light-Adapted Clade II
Biller et al., Nat. Rev. Microbiol. 2015 13(1) 13-27 Prochlorococcus: the structure and function of collective diversity.
Partensky and Laurence Garczarek Annual Review of Marine Science 2010 Prochlorococcus: Advantages and Limits of Minimalism.

Prochlorococcus Prochlorococcus.

Cyanorak Information system

Logiciels à installer sur vos postes de travail

seaview : Multiplatform GUI for molecular phylogeny
mauve : Multiple genome alignment
Artemis : Genome browser and annotation tool
Artemis Comparison Tool : Java application for displaying pairwise comparisons between two or more DNA sequences
splitstree The aim of SplitsTree4 is to provide a framework for evolutionary analysis using both trees and networks.
FigTree is designed as a graphical viewer of phylogenetic trees and as a program for producing publication-ready figures.

Artemis (art et act) et figtree peuvent être installés avec conda/mamba.

Mauve, mauveAligner et progressiveMauve peuvent être installés avec conda mais une erreur peut survenir avec Mauve. En effet, vous pouvez avoir une version trop récente de java (https://edwards.sdsu.edu/research/running-mauve-with-java-10/). Pour y remédier, chercher une "vieille" version de java et remplacer "java" par le chemin de cette version dans le fichier Mauve (ligne JAVA_CMD=java).

Atelier système

Ressources informatiques

Nous allons utiliser les ressources de GenoToul.

Vous avez dans les FAQ, les réponses à toutes vos questions concernant l'utilisation de la ressource.

Sortcuts

Vous allez vous connecter avec un compte fleur:

ssh -Y <login>@genologin.toulouse.inra.fr

Vous pouvez ouvrir deux connections afin de pouvoir lancer qlogin de façon indépendante.

Échange de fichiers:

scp file <login>@genologin.toulouse.inra.fr:~/work

Logiciels disponibles

software_faq

ou

softwares

ou plus directement

ls /usr/local/bioinfo/src/

La documentation est disponible sur le site WEB et dans le répertoire correspondant au logiciel (fichiers How_to_use and/or Readme).

Soumission de jobs avec SLURM

Seminar_cluster_SLURM

Lancer le job avec sbatch et un script du type "myscript.sh" (les chemins sont à changer).

to submit the job, use the sbatch command line as following

sbatch (qsub): submit a batch job to slurm (default workq partition()

sbatch myscript.sh

sarray (qarray): submit a batch job-array to slurm
scancel (qdel): kill the specified job

INTERACTIVE

srun [--pty bash] (qrsh): submit an interactive session with a compute node (default workq partition).
runVisuSession.sh (qlogin): submit a TurboVNC / VirtualGL session with the graphical node (interq partition). Just for graphics jobs.

Pour controler les jobs

sinfo (qhost): display nodes, partitions, reservations
squeue (qstat): display jobs and state
scontrol show : get informations on jobs, nodes, partitions
sstat (qstat -j): show status of running jobs
sview (qmon): graphical user interface
sacct (qacct) : display accounting data
scancel (qdel) : kill the specified job

Utiliser R sur le cluster

Tutoriel expliquant comment utiliser R (et compiler des fichiers Rmd) sur le cluster (slurm) de la PF Bioinformatique de Toulouse (Gaëlle Lefort et Nathalie Vialaneix):

tutoR_cluster.pdf

Utiliser awk_et sed

awk_sed_Genotoul2019

Scripts

Aide pour les scripts en bash :https://www.tutorialkart.com/bash-shell-scripting

Des scripts perl ont été écrits pour faciliter certaines étapes du TP. Ils sont disponibles dans le répertoire:

/home/formation/public_html/M2_Phylogenomique/scripts

Vous pouvez les copier dans votre espace de travail et les modifier à votre convenance.

mkdir ~/work/scripts
cp /home/formation/public_html/M2_Phylogenomique/scripts/* ~/work/scripts

Copie des fichiers

Rsync (Remote Sync) est une commande couramment utilisée pour copier et synchroniser des fichiers et des répertoires à distance ainsi que localement dans les systèmes Linux/Unix. Avec rsync, vous pouvez copier et synchroniser vos données à distance et localement à travers des répertoires, des disques et des réseaux, effectuer des sauvegardes de données et des mises en miroir entre deux machines Linux.

Nous allons utiliser cette commande pour copier les fichiers de <user>@genologin.toulouse.inra.fr à votre machine.

Exemple:

Créez un répertoire sur votre machine correspondant à l'atelier.
Placez vous dans ce répertoire.

rsync --archive --itemize-changes --stats -h -e ssh <user>@genologin.toulouse.inra.fr:/home/<user>/work/Prochlorococcus work

Pour information:

ls -l /home/$USER
save -> /save/$USER
work -> /work/$USER

Disponibilité des génomes

Caractéristiques des souches étudiées

Table modifiée à partir de la Table 1 de (Kettler et al., 2007).

Cyanobacterium	Isolate	        Light   Length(bp)      GC%     Number  Isol.   Region          Date           Accession   Code
                                Adap.                           Genes   Depth

Prochlorococcus	MED4	 	HL(I)	1,657,990	30.8	1,929	5m	Med. Sea	Jan. 1989	BX548174   Aaab
	        MIT9515	 	HL(I)	1,704,176	30.8	1,908	15m	Eq. Pacific	Jun. 1995	CP000552   Aaag
	        MIT9301	 	HL(II)	1,642,773	31.4	1,907	90m	Sargasso Sea	Jul. 1993	CP000576   Aaaj
	        AS9601	 	HL(II)	1,669,886	31.3	1,926	50m	Arabian Sea	Nov. 1995	CP000551   Aaaf
	        MIT9215	 	HL(II)	1,738,790	31.1	1,989	5m	Eq. Pacific	Oct. 1992	CP000825   Aaak
	        MIT9312	 	HL(II)	1,709,204	31.2	1,962	135m	Gulf Stream	Jul. 1993	CP000111   Aaae
	        NATL1A	 	LL(I)	1,864,731	35.1	2,201	30m	N. Atlantic	Apr. 1990	CP000553   Aaai
	        NATL2A	 	LL(I)	1,842,899	35	2,158	10m	N. Atlantic	Apr. 1990	CP000095   Aaad
	        CCMP1375/SS120	LL(II)	1,751,080	36.4	1,925	120m	Sargasso Sea	May 1988	AE017126   Aaaa
	        MIT9211	 	LL(III)1,688,963	38	1,855	83m	Eq. Pacific	Apr. 1992	CP000878   Aaah
	        MIT9303	 	LL(IV)	2,682,807	50.1	3,022	100m	Sargasso Sea	Jul. 1992	CP000554   Aaal
	        MIT9313	 	LL(IV)	2,410,873	50.7	2,843	135m	Gulf Stream	Jul. 1992	BX548175   Aaac
Synechococcus	CC9311	 	Syn.	2,606,748	52.5	3017	95m	Calif.		Current 1993    CP000435   Aaao
	        CC9902	 	Syn.	2,234,828	54.2	2504	5m	Calif. 		Current 1999	CP000097   Aaam
	        WH8102	 	Syn.	2,434,428	59.4	2787		Sargasso Sea	Mar. 1981	BX548020   Aaap
	        CC9605	 	Syn.	2,510,659	59.2	2991	51m	Calif.		Current 1996    CP000110   Aaan

Prochlorococcus

NCBI

Génomes de Prochlorococcus disponibles au NCBI browse

Accessions des génomes utilisés dans Kettler et al., PLoS Genet. 2007:

accession "BX548174,CP000552,CP000576,CP000551,CP000825,CP000111,CP000553,CP000095,AE017126,CP000878,CP000554,BX548175"

Les fichiers GenBank peuvent être obtenus avec la commande wget en utilisant les chemins enregistrés dans le fichier: accession_file.lst

Pour des raisons de compatibilité avec les programmes, les génomes sont renommés en utilisant un code à quatre lettres. accession_labels_file.lst

GenBank

Les fichiers GenBank renommés sont disponibles dans le répertoire: GenBank

DNA

Les séquences ADN ont été extraites des fichiers GenBank : DNA

Annotation

Prokka

Les réplicons des génomes sont annotés avec le logiciel prokka.

Suivre Prokka

Nous allons copier les fichiers peptides dans un répertoire de travail:

mkdir -p ~/work/Prochlorococcus/peptide
cp ~/work/Prochlorococcus/prokka/Aaa*/*.faa ~/work/Prochlorococcus/peptide/.
 
ls -l ~/work/Prochlorococcus/peptide

Conservation de séquence entre souches de Prochlorococcus

Suivre Conservation entre souches

Groupes de gènes orthologues

Question 1.4:
Quelle méthode ont utilisé Kettler et al., 2007 pour identifier les groupes de gènes orthologues?

eggNOG

eggnog-mapper

See software documentation for more informations.

Location: /usr/local/bioinfo/src/eggNOG-mapper

Basic_usage

ll /usr/local/bioinfo/src/eggNOG-mapper/example_on_cluster/test_eggnog-mapper-2.0.1.sh

emapper.py -i ~/work/Prochlorococcus/peptide/Aaaa.faa --cpu 4 --output Aaaa_NOG -m diamond

cp /usr/local/bioinfo/src/eggNOG-mapper/example_on_cluster/test_eggnog-mapper-2.0.1.sh eggnog-mapper-2.0.1.sh

module load devel/python/Python-2.7.18; module load bioinfo/eggNOG-mapper/2.0.1; emapper.py -i p53.fa --cpu 4 --output p53_maNOG -m diamond ~

-i FILE                 input FASTA file containing query sequences (proteins by default)
--data_dir DIR          Specify a path to the eggNOG-mapper databases. By default, data/ folder or the one specified by the EGGNOG_DATA_DIR environment variable. 
-m MODE                 Search options, Default is -m diamond
--target_orthologs      one2one|many2one|one2many|many2many|all defines what type of orthologs (in relation to the seed ortholog) should be used for functional transfer. Default: all 
--report_orthologs      as a first step in functional annotation, eggNOG-mapper identifies the orthologs of each query, using seed orthologs from the search stage as an anchoring or starting point. A list of these orthologs is not reported by default. 
--output,-o FILE_PREFIX base name for output files
--output_dir DIR        where output files should be written. default is current working directory.
--decorate_gff no|yes|FILE  Option to create/decorate a GFF file with emapper hits and/or annotations. Default is no.

Output files

Search hits (prefix.emapper.hits)A file with the results from the search phase, from HMMER, Diamond or MMseqs2.
Seed orthologs (prefix.emapper.seed_orthologs) A file with the results from parsing the hits. Each row links a query with a seed ortholog. 
Annotations (prefix.emapper.annotations) A file with the results from the annotation phase.

if [[ -e eggnog-mapper.sh]]; then
  rm eggnog-mapper.sh
fi
 
for file in ~/work/Zhang/PEP/Pr*.faa; 
do
  prefix=$(basename $file .faa)
  output="${prefix}.emapper.annotations"
  if [[ -f "$output" ]]; then
    echo "skip $output" 
  else
    echo "module load devel/python/Python-2.7.18; module load bioinfo/eggNOG-mapper/2.0.1; emapper.py -i $file --cpu 4 --output $prefix -m diamond" 1>> eggnog-mapper.sh
  fi
done
 
cat eggnog-mapper.sh

sarray -J eggNOG -o %j.out -e %j.err -t 04:00:00 --cpus-per-task=4 eggnog-mapper.sh
squeue -l -u $USER

les résultats sont dans : /home/formation/work/Prochlorococcus/eggNOG

OrthoFinder

OrthoFinder est une plateforme rapide, précise et complète pour la génomique comparative. Il trouve des orthogroupes et des orthologues, déduit des arbres de gènes enracinés pour tous les orthogroupes et identifie tous les événements de duplication de gènes dans ces arbres.

Il déduit également un arbre des espèces enraciné pour l'espèce analysée et fait correspondre les événements de duplication de gènes des arbres génétiques aux branches de l'arbre des espèces.

OrthoFinder fournit également des statistiques complètes pour les analyses génomiques comparatives.

Suivre OrthoFinder]!

Préliminaires

Question 1.5:
Selon vous qu'est-ce qui guide le choix du type de séquences à utiliser dans les comparaisons (peptides ou nucléotidiques)?

Blast All-vs-All

PorthoMCL

MSK

Panaroo

panaroo

PanOCT

Pan-genome Ortholog Clustering Tool, est un programme écrit en PERL pour l'analyse pan-génomique d'espèces ou de souches procaryotes étroitement apparentées. Contrairement aux programmes traditionnels de détection d'orthologues basés sur des graphes, il utilise la micro-synténie ou le voisinage de gènes conservés (CGN) en plus de l'homologie pour placer avec précision les protéines dans des groupes orthologues.

panoct project

Suivre PanOCT

Analyses pan-génomiques

Les analyses pan-génomiques fournissent un cadre pour déterminer la diversité génomique de l'ensemble des gènomes analysés, mais aussi pour prédire, par extrapolation, combien de séquences génomiques supplémentaires seraient nécessaires pour caractériser l'ensemble du pan-génome ou répertoire génétique.

Inside the Pan-genome - Methods and Software Overview

Suivre: Analyses pan-génomiques

Alignement et comparaison de génomes complets

Suivre : Alignement Genomes

Analyses phylogénomiques

Comme dans Kettler et al., 2007, nous allons utiliser quatre génomes de Synechococcus comme groupe externe dans nos analyses.

Suivre Analyses phylogénomiques

Phylogénie basée sur les séquences des ARNr

Question 4.1:
Quel-est l’intérêt de réaliser des arbres avec les séquences de l'ARNr? Quels-sont les ARNr présents dans les génomes de procaryotes? A quelle(s) sous-unité(s) ribosomique sont-ils associés?

Suivre : Phylogénie ARNr

Arbre espèces: préparation des fichiers

Support de cours 1 : supports

Support de cours 2 : supports

Nous allons utiliser un sous ensemble de gènes concervés chez Prochlorococcus et Synechococcus pour expérimenter les différentes méthodes de reconstruction phylogénomiques. Nous nous initierons à la comparaison d’arbres.

Suivre : Arbre espèces

Super-alignement (Jeudi)

Comme dans l’article publié en 2018 de Yan et al., nous utiliserons 31 gènes du core genome tirés au hasard. Nous partirons des arbres effectués sur le super-alignement protéique de ces gènes et sur celui retranscrits en nucléotides.

Question 5.8: 
Proposez une méthode pour obtenir le super-alignement protéique de ces 31 gènes concaténés.

Concaténation de 31 alignements

mkdir ~/work/ProchlorococcusSynechococcus/OG/31_good_alignments
 
~/work/scripts/concat_aligments.pl  --alignments ~/work/ProchlorococcusSynechococcus/OG/good_alignments/SCORE1000.lst --outfile ~/work/ProchlorococcusSynechococcus/OG/31_good_alignments/alignments.fas  -nb_ali 31

Liste des alignements retenus:

~/work/ProchlorococcusSynechococcus/OG/good_alignments/SCORE1000.lst

Aller regarder le fichier de sortie. Est-il conforme à l'attendu ?

IQ-TREE

genologin softwares : iq-tree

FAQ : http://www.iqtree.org/doc/Frequently-Asked-Questions

Documentation : http://www.iqtree.org/doc/

Documentation : "Substitution-Models"

mkdir ~/work/ProchlorococcusSynechococcus/phyloG/
cd ~/work/ProchlorococcusSynechococcus/phyloG/
cp ~/work/ProchlorococcusSynechococcus/OG/31_good_alignments/alignments.fas .

Nous allons inférer un arbre à partir du super-alignement en codons: Créer le fichier condTree.sh contenant les lignes suivantes. Lancez le, puis répondez aux questions suivantes car cela va être assez long, vous y reviendrez ensuite. Surtout faites un sbatch --cpus-per-task=4 à partir de genologin pour le lancer car nous avons demandé 4 slots de calcul. N'oubliez pas de spécifier le modèle dans la ligne de commande vous gagnerez 8 heures de calcul ;-)

Bonne pratique pour quand vous travaillerez : prenez l'habitude de vérifier la version la plus récente installée sur genologin. Pensez à vérifier si elle doit être mise à jour, si oui, demander la mise à jour. Si non, utilisez la dernière version.

#!/bin/bash
module load bioinfo/iqtree-2.1.3
iqtree -s alignments.fas -redo -bb 1000 -alrt 1000 -st CODON -nt 4 -m KOSI07+F

Pour vous, nous avons inféré un arbre à partir du super-alignement protéique, la ligne de commande lancée était :

iqtree -s all_pep.fas  -bb 1000 -alrt 1000 -nt 4

Best-fit model according to BIC: LG+F+R4

Vous trouverez les fichiers générés ici : /home/formation/work/ProchlorococcusSynechococcus/phyloG/proteine/all_pep.fas.*. Vous pouvez les copier dans votre répertoire ~/work/ProchlorococcusSynechococcus/phyloG/.

Question 5.10: 
Pouvez-vous m’expliquer ce qu’on a demandé à IQTREE dans les deux cas ? Quels ont été les modèles choisis ? Pouvez-vous les expliquer ?
Ceci peut vous aider : 
http://www.iqtree.org/doc/Substitution-Models

Question 5.11:
Comparez les deux arbres (*.treefile) visuellement avec figtree par exemple (ou avec des outils en ligne tels que : phylo.io, PhyD3, iTOL...).
Pour afficher les valeurs de bootstraps, il est nécessaire que figtree les charge comme « labels », ainsi dans la rubrique « node labels » il vous faudra sélectionner « labels » dans le menu déroulant « display ».
Mettez l'arbre généré dans le rapport de TP.
Quelles sont les principales différences ? Que pensez-vous de ces arbres ? Leurs supports ? Leurs congruences ? Les grands clades connus sont-ils retrouvés ? Comparer avec les arbres des articles ou revues suivant(e)s :
La revue de Biller et al : Prochlorococcus  : the structure and function of collective diversity
L’article de Kettler et al. : Patterns and implications of gene gain and loss in the evolution of Prochlorococcus et celui de Yan et al. : Genome rearrangement shapes Prochlorococcus ecological adaptation.
N’oubliez pas de commenter les valeurs de support des nœuds. Pensez à enraciner les arbres en utilisant l’outgroup Synechococcus.

NB: Les noms des espèces et les informations des clades correspondants sont disponibles dans le fichier /home/formation/work/ProchlorococcusSynechococcus/Ancestral_Characters/Strains_info.txt ou dans le tableau ici.

Super-arbres

Nous allons utiliser les arbres individuels protéiques ainsi que celui reconstruit à partir de la petite sous-unité de l’rRNA. Sur genologin le script ssuTree.sh était celui-là :

#!/bin/bash
iqtree -s ./ssu_renamed_simplified.aln -nt 1 -AIC -bb 1000 -alrt 1000 -redo

Et on a tapé :

module load bioinfo/iqtree-2.0.6
sbatch --mem=20G ssuTree.sh

Voici l’arbre obtenu :

/home/formation/work/ProchlorococcusSynechococcus/phyloG/ssu_renamed_simplified.aln.treefile

A vous :

Loguez-vous sur genologin.

Lançons les arbres protéiques. Pour cela faire un seul script que vous appellerez ind_pep_trees.sh et qui écrira toutes les commandes en bouclant sur chaque fichier d’entrée. Le but étant d’obtenir une ligne par commande iqtree sur un fichier d’alignement protéique. Les fichiers d’input sont :

/home/formation/work/ProchlorococcusSynechococcus/phyloG/proteine/*_renamed.fas

Il vous faut les copier dans votre work car sinon iqtree écrira les fichiers d'output sur le répertoire du compte de formation et pas dans le votre...

Pour vous aider inspirez vous de la réponse à la question "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/.

Attention à bien spécifier -nt 1. Si vous souhaitez utiliser plus d’un CPU il faut le réserver avec l’option --cpus-per-task dans la commande sbatch / sarray. Pas besoin d’augmenter la RAM pour les protéines. Pensez aussi à mettre -AIC comme critère de sélection de modèle.

Regarder le contenu de ind_pep_trees.sh. Est-il correct ?

Remarque, il n'est pas toujours utile de tester l'ensemble des modèles, vous pouvez faire une pré-sélection avec l'option -mset et/ou -madd. Exemple -mset WAG,JTT,LG.

Rajouter la première ligne obligatoire sur genologin avec vi par exemple :

#!/bin/bash

Pour le lancer en parallèle sur plusieurs nœuds du cluster :

module load bioinfo/iqtree-2.0.6
sarray ind_pep_trees.sh

Pour monitorer votre job :

squeue -l -u <login>

Pour le killer si besoin :

scancel jobid

Quand tous vos jobs sont terminés, vérifiez que les fichiers de sorties ne soient pas vides et que ça s’est bien passé en faisant par exemple :

tail *_renamed.fas.log

Vous pouvez aussi regarder les modèles sélectionnés :

grep 'Best-fit model:' *_renamed.fas.log

Concaténer tous les arbres (les 31 arbres protéiques et l’arbre ARNr obtenu hier) avec la commande cat. Nommez le fichier alltrees.tree.

Test de plusieurs méthodes de super-arbres :

Commençons par la méthode la plus répandue : le MRP.

Pour aller sur un nœud :

srun --pty bash

puis taper :

module load system/R-3.5.1
R
library(phytools)
trees=read.tree("./alltrees.tree")
supertrees<-mrp.supertree(trees,rearrangements="SPR", start="NJ")

Vous avez obtenu les super-arbres les plus parcimonieux. Sauvez-les en utilisant la fonction write.tree de R.

write.tree(supertrees, file = "./superTrees.tree")
quit()

Nous sommes sortis de R.

Dans notre cas, nous avons un seul arbre le plus parcimonieux, mais nous aurions pu en obtenir plusieurs.

Utiliser iqtree pour obtenir le consensus des 32 arbres avec la règle majoritaire étendue.

Pour cela restez sur le nœud et tapez :

module load bioinfo/iqtree-2.0.6
iqtree -con -t alltrees.tree -nt 1

Question 5.12:
D’après vous que signifie les valeurs aux nœuds sur cet arbre consensus ?

Lancez aussi l’arbre consensus en réseau :

iqtree -net -t alltrees.tree -nt 1

Et visualisez-le avec splitstree en local.

https://software-ab.informatik.uni-tuebingen.de/download/splitstree5/welcome.html

Question 5.13:
Commentez ce réseau par rapport aux autres arbres obtenus. Qu’en pensez-vous ?

ASTRAL

Nous pouvons utiliser entré du logiciel le fichier des arbres gènes/protéines concaténés.

Un exemple de script de soumission:

/home/formation/work/ProchlorococcusSynechococcus/phyloG/proteine/Astral/astral.sh

Comparaison des arbres

Concaténez maintenant les deux arbres de super-matrice (celui sur les codons que vous avez lancé toute à l'heure et celui sur les protéines) ainsi que les deux super-arbres (le consensus et le MRP).

Si vous avez eu des difficultés à obtenir l'arbre à partir de l'alignement en codon il est disponible ici : /home/formation/work/ProchlorococcusSynechococcus/phyloG/alignment_0.4_70_31.fas*.

Attention marquez quelques part l'ordre avec lequel vous les avez concaténés pour créer le fichier d'arbres à comparer afin de vous en souvenir ensuite. Lancer ensuite le calcul de la distance de Robinson and Foulds sur ce fichier avec iqtree entre les 4 arbres 2 à 2.

Attention à faire le module load bioinfo/iqtree-2.0.6

Et à rajouter -nt 1 dans les options. Restez sur le nœud ou faites un sbatch, mais ne lancez rien sur le nœud maître.

Question 5.14: 
Commentez les résultats. Quel est l’arbre le plus différent des autres ? Qu’est-ce qui pourrait l’expliquer ?

Analyse des liens phylogénétiques des gènes du OG5 de PortMCL

Reconstruction d'états ancestraux

Introduction

Si certaines combinaisons de caractères sont systématiquement associées à plusieurs espèces, cela pourrait suggérer que des forces évolutives, comme la sélection, ont façonné ces associations. Toutefois, les associations non aléatoires de certains traits chez certaines espèces peuvent être dues à l'héritage commun de leurs ancêtres et, par conséquent, les changements concomitants dans le temps ne peuvent être déduits.

Si les caractères ont évolué de façon aléatoire sans association, les espèces plus étroitement apparentées sont plus susceptibles d'être semblables que les autres, créant ainsi des relations apparentes entre les caractères.

Il est donc nécessaire de considérer les relations phylogénétiques entre les espèces lors de l'analyse de leurs caractères.

Deux questions peuvent être abordées lors de l'intégration de la phylogénie dans les données comparatives :

prise en compte de la non-indépendance inter-espèces dans l'étude des caractères et de leurs relations,
estimation des paramètres d'évolution des caractères.

Ces deux questions sont étroitement liées. En effet l'impact de la phylogénie sur la distribution des caractères dépend non seulement de la phylogénie mais aussi de la façon dont ces caractères évoluent.

Suivre : Etats ancestraux

Liens utiles

Mesquite

Mesquite: A modular system for evolutionary analysis

@@ Line 16: / Line 16: @@
 *[http://www.phytools.org/eqg2015/asr.html Ancestral State Reconstruction with phytools2]
-anemone arome aster bleuet camelia capucine chardon clematite cobee coquelicot cosmos cyclamen dahlia digitale geranium gerbera glaieul hortensia iris jacinthe jonquille
+*[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/2022_supports/Reconstruction_etats_ancestraux.html Reconstruction_etats_ancestraux.html]
+*[http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/2022_supports/Reconstruction_etats_ancestraux.Rmd Reconstruction_etats_ancestraux.Rmd]
+anemone arome aster bleuet camelia capucine chardon clematite cobee coquelicot cosmos cyclamen dahlia digitale geranium gerbera glaieul hortensia iris jacinthe
 <!--
 décrivant l'installation des logiciels pour les différents ateliers : http://silico.biotoul.fr/p/M2BBS_-_Atelier_Syst%C3%A8me
@@ Line 26: / Line 29: @@
 *[https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0088837 Sun and Blanchard, 2014] Strong Genome-Wide Selection Early in the Evolution of Prochlorococcus Resulted in a Reduced Genome through the Loss of a Large Number of Small Effect Genes
 *[https://www.ncbi.nlm.nih.gov/pubmed/29915114 Yan et al., Appl Environ Microbiol. 2018] Genome rearrangement shapes ''Prochlorococcus'' ecological adaptation.
+*[https://pubmed.ncbi.nlm.nih.gov/35285694/  Yan et al., mBio 2022] Diverse Subclade Differentiation Attributed to the Ubiquity of Prochlorococcus High-Light-Adapted Clade II
 *[http://scope.soest.hawaii.edu/pubs/2015Biller_NatRevMicro.pdf Biller et al., Nat. Rev. Microbiol. 2015 13(1) 13-27] ''Prochlorococcus'': the structure and function of collective diversity.
 *[https://www.annualreviews.org/doi/10.1146/annurev-marine-120308-081034 Partensky and Laurence Garczarek Annual Review of Marine Science 2010] Prochlorococcus: Advantages and Limits of Minimalism.
@@ Line 38: / Line 42: @@
 *[http://www.sanger.ac.uk/science/tools/artemis Artemis] : Genome browser and annotation tool
 *[http://www.sanger.ac.uk/science/tools/artemis-comparison-tool-act Artemis Comparison Tool] : Java application for displaying pairwise comparisons between two or more DNA sequences
-*[http://ab.inf.uni-tuebingen.de/data/software/splitstree4/download/welcome.html splitstree] The aim of SplitsTree4 is to provide a framework for evolutionary analysis using both trees and networks.
+*[https://software-ab.cs.uni-tuebingen.de/download/splitstree4/welcome.html splitstree] The aim of SplitsTree4 is to provide a framework for evolutionary analysis using both trees and networks.
 *[http://tree.bio.ed.ac.uk/software/figtree/ FigTree] is designed as a graphical viewer of phylogenetic trees and as a program for producing publication-ready figures.
-''Artemis'' (''art'' et ''act'') et ''figtree'' peuvent être installés avec ''conda''.
+''Artemis'' (''art'' et ''act'') et ''figtree'' peuvent être installés avec [http://www.m2p-bioinfo.ups-tlse.fr/p/M2BBS_-_Atelier_Syst%C3%A8me#Atelier_Phylog.C3.A9nomique conda/mamba].
 ''Mauve'', ''mauveAligner'' et ''progressiveMauve'' peuvent être installés avec ''conda'' mais une erreur peut survenir avec Mauve. En effet, vous pouvez avoir une version trop récente de java (https://edwards.sdsu.edu/research/running-mauve-with-java-10/). Pour y remédier, chercher une "vieille" version de java et remplacer "java" par le chemin de cette version dans le fichier Mauve (ligne JAVA_CMD=java).
@@ Line 119: / Line 123: @@
 *sview (qmon): graphical user interface
 *sacct (qacct) : display accounting data
+*scancel (qdel) : kill the specified job
 ====Utiliser R sur le cluster====
@@ Line 153: / Line 158: @@
 </pre>
 Pour information:
-  ls -l /home/<user>
+  ls -l /home/$USER
-  save -> /save/<user>
+  save -> /save/$USER
-  work -> /work/<user>
+  work -> /work/$USER
 ==Disponibilité des génomes==
@@ Line 206: / Line 211: @@
 Suivre [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique_Prokka Prokka]
+Nous allons copier les fichiers peptides dans un répertoire de travail:
+<source lang='bash'>
+mkdir -p ~/work/Prochlorococcus/peptide
+cp ~/work/Prochlorococcus/prokka/Aaa*/*.faa ~/work/Prochlorococcus/peptide/.
+ls -l ~/work/Prochlorococcus/peptide
+</source>
 <!--
 [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/data/Prochlorococcus/prokka prokka files].
@@ Line 381: / Line 394: @@
 Quelle méthode ont utilisé Kettler et al., 2007 pour identifier les groupes de gènes orthologues?
 </pre>
-===OrthoFinder===
+=== eggNOG ===
+*[https://github.com/eggnogdb/eggnog-mapper eggnog-mapper]
+See software documentation for more informations.
+ Location: /usr/local/bioinfo/src/eggNOG-mapper
+*[https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2.1.5-to-v2.1.8#Basic_usage Basic_usage]
+ll /usr/local/bioinfo/src/eggNOG-mapper/example_on_cluster/test_eggnog-mapper-2.0.1.sh
+ emapper.py -i ~/work/Prochlorococcus/peptide/Aaaa.faa --cpu 4 --output Aaaa_NOG -m diamond
+cp /usr/local/bioinfo/src/eggNOG-mapper/example_on_cluster/test_eggnog-mapper-2.0.1.sh eggnog-mapper-2.0.1.sh
+module load devel/python/Python-2.7.18; module load bioinfo/eggNOG-mapper/2.0.1; emapper.py -i p53.fa --cpu 4 --output p53_maNOG -m diamond
+~
+ -i FILE                 input FASTA file containing query sequences (proteins by default)
+ --data_dir DIR          Specify a path to the eggNOG-mapper databases. By default, data/ folder or the one specified by the EGGNOG_DATA_DIR environment variable.
+ -m MODE                 Search options, Default is -m diamond
+ --target_orthologs      one2one|many2one|one2many|many2many|all defines what type of orthologs (in relation to the seed ortholog) should be used for functional transfer. Default: all
+ --report_orthologs      as a first step in functional annotation, eggNOG-mapper identifies the orthologs of each query, using seed orthologs from the search stage as an anchoring or starting point. A list of these orthologs is not reported by default.
+ --output,-o FILE_PREFIX base name for output files
+ --output_dir DIR        where output files should be written. default is current working directory.
+ --decorate_gff no|yes|FILE  Option to create/decorate a GFF file with emapper hits and/or annotations. Default is no.
+Output files
+ Search hits (prefix.emapper.hits)A file with the results from the search phase, from HMMER, Diamond or MMseqs2.
+ Seed orthologs (prefix.emapper.seed_orthologs) A file with the results from parsing the hits. Each row links a query with a seed ortholog.
+ Annotations (prefix.emapper.annotations) A file with the results from the annotation phase.
+<syntaxhighlight lang="bash">
+if [[ -e eggnog-mapper.sh]]; then
+  rm eggnog-mapper.sh
+fi
+for file in ~/work/Zhang/PEP/Pr*.faa;
+do
+  prefix=$(basename $file .faa)
+  output="${prefix}.emapper.annotations"
+  if [[ -f "$output" ]]; then
+    echo "skip $output"
+  else
+    echo "module load devel/python/Python-2.7.18; module load bioinfo/eggNOG-mapper/2.0.1; emapper.py -i $file --cpu 4 --output $prefix -m diamond" 1>> eggnog-mapper.sh
+  fi
+done
+cat eggnog-mapper.sh
+</syntaxhighlight>
+<source lang='bash'>
+sarray -J eggNOG -o %j.out -e %j.err -t 04:00:00 --cpus-per-task=4 eggnog-mapper.sh
+squeue -l -u $USER
+</source>
+les résultats sont dans : /home/formation/work/Prochlorococcus/eggNOG
+=== OrthoFinder ===
 '''OrthoFinder''' est une plateforme rapide, précise et complète pour la génomique comparative. Il trouve des '''orthogroupes''' et des orthologues, déduit des arbres de gènes enracinés pour tous les orthogroupes et identifie tous les événements de duplication de gènes dans ces arbres.
@@ Line 503: / Line 571: @@
 ===PorthoMCL===
+MSK
+<!--
 [https://github.com/etabari/PorthoMCL PorthoMCL]
@@ Line 512: / Line 582: @@
 Suivre [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique_PorthoMCL PorthoMCL]
+-->
 <!--
 <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -o-pre-wrap">
@@ Line 937: / Line 1,008: @@
 </div>
 -->
+=== Panaroo ===
+[https://gtonkinhill.github.io/panaroo panaroo]
 ===PanOCT===
@@ Line 1,991: / Line 2,065: @@
          ARNr 16S (1541 nucléotides chez E. coli2).
 -->
 Suivre : [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique_Phylog%C3%A9nie_ARNr Phylogénie ARNr]
 <!--
 ===Annotation des ARNr===
@@ Line 2,149: / Line 2,221: @@
 ==Arbre espèces: préparation des fichiers==
-'''Support de cours :''' [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/2020_supports/ supports]
+'''Support de cours 1 :''' [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/2020_supports/ supports]
+'''Support de cours 2 :''' [http://genoweb.toulouse.inra.fr/~formation/M2_Phylogenomique/2022_supports/ supports]
 Nous allons utiliser un sous ensemble de gènes concervés chez ''Prochlorococcus'' et ''Synechococcus'' pour expérimenter les différentes méthodes de reconstruction phylogénomiques. Nous nous initierons à la comparaison d’arbres.
@@ Line 2,372: / Line 2,446: @@
 -->
 ====Concaténation de 31 alignements====
-<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+<source lang='bash'>
-/home/formation/work/scripts/concat_aligments.pl  --alignments /home/formation/work/ProchlorococcusSynechococcus/OG/alignment/alignment_0.4_70.lst  --outfile ~/work/ProchlorococcusSynechococcus/OG/alignment/alignment_0.4_70_31 -nb_ali 31
+mkdir ~/work/ProchlorococcusSynechococcus/OG/31_good_alignments
-</pre>
+~/work/scripts/concat_aligments.pl  --alignments ~/work/ProchlorococcusSynechococcus/OG/good_alignments/SCORE1000.lst --outfile ~/work/ProchlorococcusSynechococcus/OG/31_good_alignments/alignments.fas  -nb_ali 31
+</source>
 Liste des alignements retenus:
-  /home/formation/work/ProchlorococcusSynechococcus/OG/alignment/alignment_0.4_70_31.lst
+  ~/work/ProchlorococcusSynechococcus/OG/good_alignments/SCORE1000.lst
 Aller regarder le fichier de sortie. Est-il conforme à l'attendu ?
+<!--
+/home/formation/work/scripts/concat_aligments.pl  --alignments /home/formation/work/ProchlorococcusSynechococcus/OG/alignment/alignment_0.4_70.lst  --outfile ~/work/ProchlorococcusSynechococcus/OG/alignment/alignment_0.4_70_31 -nb_ali 31
+-->
 ====IQ-TREE====
@@ Line 2,385: / Line 2,465: @@
 Documentation : http://www.iqtree.org/doc/
-<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+Documentation : [http://www.iqtree.org/doc/Substitution-Models "Substitution-Models"]
+<source lang='bash'>
 mkdir ~/work/ProchlorococcusSynechococcus/phyloG/
 cd ~/work/ProchlorococcusSynechococcus/phyloG/
-cp ~/work/ProchlorococcusSynechococcus/OG/alignment/alignment_0.4_70_31 .
+cp ~/work/ProchlorococcusSynechococcus/OG/31_good_alignments/alignments.fas .
-</pre>
+</source>
 Nous allons inférer un arbre à partir du super-alignement en codons:
 Créer le fichier condTree.sh contenant les lignes suivantes. Lancez le, puis répondez aux questions suivantes car cela va être assez long, vous y reviendrez ensuite. Surtout faites un sbatch --cpus-per-task=4 à partir de genologin pour le lancer car nous avons demandé 4 slots de calcul.
@@ Line 2,395: / Line 2,477: @@
 Bonne pratique pour quand vous travaillerez : prenez l'habitude de vérifier la version la plus récente installée sur genologin. Pensez à vérifier si elle doit être mise à jour, si oui, demander la mise à jour. Si non, utilisez la dernière version.
-<pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
+<source lang='bash'>
 #!/bin/bash
-module load bioinfo/iqtree-2.0.6
+module load bioinfo/iqtree-2.1.3
-iqtree -s ~/work/ProchlorococcusSynechococcus/phyloG/alignment_0.4_70_31 -redo -bb 1000 -alrt 1000 -st CODON -nt 4 -m KOSI07+F+R6
+iqtree -s alignments.fas -redo -bb 1000 -alrt 1000 -st CODON -nt 4 -m KOSI07+F
-</pre>
+</source>
 <!--
 [http://www.iqtree.org/doc/Substitution-Models Substitution-Models]
@@ Line 2,412: / Line 2,494: @@
 Pour vous, nous avons inféré un arbre à partir du super-alignement protéique, la ligne de commande lancée était :
   iqtree -s all_pep.fas  -bb 1000 -alrt 1000 -nt 4
+ Best-fit model according to BIC: LG+F+R4
 Vous trouverez les fichiers générés ici : /home/formation/work/ProchlorococcusSynechococcus/phyloG/proteine/all_pep.fas.*. Vous pouvez les copier dans votre répertoire ~/work/ProchlorococcusSynechococcus/phyloG/.
@@ Line 2,446: / Line 2,531: @@
   sbatch --mem=20G ssuTree.sh
-Voici l’arbre obtenu : /home/formation/work/ProchlorococcusSynechococcus/phyloG/ssu_renamed_simplified.aln.treefile
+Voici l’arbre obtenu :
+'''/home/formation/work/ProchlorococcusSynechococcus/phyloG/ssu_renamed_simplified.aln.treefile'''
 '''A vous :'''
@@ Line 2,453: / Line 2,540: @@
 Lançons les arbres protéiques. Pour cela faire un seul script que vous appellerez ind_pep_trees.sh et qui écrira toutes les commandes en bouclant sur chaque fichier d’entrée. Le but étant d’obtenir une ligne par commande iqtree sur un fichier d’alignement protéique.
-Les fichiers d’input sont /home/formation/work/ProchlorococcusSynechococcus/phyloG/proteine/*_renamed.fas.
+Les fichiers d’input sont :
+'''/home/formation/work/ProchlorococcusSynechococcus/phyloG/proteine/*_renamed.fas'''
 Il vous faut les copier dans votre work car sinon iqtree écrira les fichiers d'output sur le répertoire du compte de formation et pas dans le votre...
@@ Line 2,459: / Line 2,548: @@
 Pour vous aider inspirez vous de la réponse à la question "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/.
-'''Attention à bien spécifier -nt 1. Si vous souhaitez utiliser plus d’un CPU il faut le réserver avec l’option --cpus-per-task dans la commande sbatch / sarray. Pas besoin d’augmenter la RAM pour les protéines. Pensez aussi à mettre -AIC comme critère de sélection de modèle.'''
+'''Attention à bien spécifier -nt 1. Si vous souhaitez utiliser plus d’un CPU il faut le réserver avec l’option --cpus-per-task dans la commande sbatch / sarray. Pas besoin d’augmenter la RAM pour les protéines. Pensez aussi à mettre '''-AIC''' comme critère de sélection de modèle.'''
 Regarder le contenu de ind_pep_trees.sh. Est-il correct ?
+Remarque, il n'est pas toujours utile de tester l'ensemble des modèles, vous pouvez faire une pré-sélection avec l'option -mset et/ou -madd. Exemple '''-mset WAG,JTT,LG'''.
 Rajouter la première ligne obligatoire sur genologin avec vi par exemple :
@@ Line 2,544: / Line 2,635: @@
 Commentez ce réseau par rapport aux autres arbres obtenus. Qu’en pensez-vous ?
 </pre>
+'''ASTRAL'''
+* [https://github.com/smirarab/ASTRAL ASTRAL]
+* [http://bioinfo.genotoul.fr/index.php/how-to-use/?software=How_to_use_SLURM_ASTRAL How_to_use_SLURM_ASTRAL]
+Nous pouvons utiliser entré du logiciel le fichier des arbres gènes/protéines concaténés.
+Un exemple de script de soumission:
+/home/formation/work/ProchlorococcusSynechococcus/phyloG/proteine/Astral/astral.sh
 ===Comparaison des arbres===
@@ Line 2,588: / Line 2,689: @@
 Ces deux questions sont étroitement liées. En effet l'impact de la phylogénie sur la distribution des caractères dépend non seulement de la phylogénie mais aussi de la façon dont ces caractères évoluent.
+Suivre : [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique_Etats_ancestraux Etats ancestraux]
+<!--
 ===Répertoire===
 Nous allons travailler dans un nouveau répertoire:
@@ Line 2,683: / Line 2,786: @@
 </pre>
 Number of genes
-<!--
 <pre style="color:blue;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 for file in ~/work/Prochlorococcus/prokka/Aaa*/*.txt ~/work/Synechococcus/prokka/Aaa*/*.txt
@@ Line 2,703: / Line 2,806: @@
 dev.off()
 </pre>
--->
 <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 Question 6.1:
@@ Line 2,789: / Line 2,892: @@
 ===Autocorrélation phylogénétique===
 masquée
-<!--
 Comme les espèces ne sont pas indépendantes par leurs relations phylogénétiques,
 nous pouvons utiliser cette dépendance pour quantifier l'association entre les variables observées au niveau des espèce. Gittleman et Kot[109] propose une méthode basée sur
@@ Line 2,814: / Line 2,917: @@
 Existe-t-il un lien entre l'évolution des caractères (taille du génome et contenu en GC) et l'évolution des souches? Commentez.
 </pre>
--->
 ===Habitats===
@@ Line 2,863: / Line 2,966: @@
 ecotypes <- strains_info$Light
 </pre>
-<!--
 <pre style="color:purple;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 pdf(file="~/work/ProchlorococcusSynechococcus/images/Ecotypes_full.pdf", paper="a4r")
@@ Line 2,873: / Line 2,976: @@
 dev.off()
 </pre>
--->
 <pre style="color:red;white-space: pre-wrap;white-space: -moz-pre-wrap;white-space: -pre-wrap;white-space: -o-pre-wrap">
 Question 6.8:
@@ Line 3,323: / Line 3,426: @@
 La mise en œuvre de ce logiciel est complexe et ne sera pas traitée dans le cadre de cd TP.
+-->
 ==Liens utiles==