Tutorial de BioInformatique

Approche génomique : étude de l'évolution de la cascade de régulation de la compétence chez les Streptocoques (suite)

Introduction

La transformation génétique naturelle est un mécanisme de transfert horizontal de gènes largement répandu chez les bactéries et qui nécessite la mise en place d'une machinerie d'entrée de l'ADN. Pour réaliser la transformation les bactéries doivent être dans un état physiologique particulier : la compétence. C'est un état génétiquement programmé et transitoire. Ce processus est étudié dans un certain nombre de batéries modèles, notamment chez Streptococcus pneumoniae et Streptococcus mutans. Chez Streptococcus pneumoniae, il a été démontré que l'état de compétence est régulé par un système à deux composants, ComDE, ComD étant l'histidine kinase et ComE le régulateur de réponse. La détection d'un petit peptide (CSP, competence stimulating peptide) par le senseur ComD, conduit à son auto-phosphorylation et au transfert du groupement phosphoryl au régulateur de réponse ComE. ComE phosphorylé active directement l'expression des gènes précoces de la compétence. Cette réponse est très rapide car la transcription des gènes précoces atteind un maximum 5-7 minutes après l'adjonction de CSP dans le milieu. Les résulats obtenus chez Streptococcus pneumoniae ont servi de modèle pour l'étude de ce processus chez S. mutans. Cependant dans cet organisme, un délai de 2h est observé entre l'adjonction de CSP et la transcription des gènes précoces.
Pour tenter de comprendre cette différence, une étude va être entreprise pour étudier l'évolution de cette régulation dans les génomes de Streptocoques et déterminer jusqu'à quel point le "modèle Streptococcus pneumoniae" peut être utilisé comme paradigme pour les autres espèces de Sterptocoques.

Lors de la séance précédente nous avons vu les problèmes liés à la sélection de séquence. Nous allons maintenant analyser ceux liés à la reconstruction des arbres.

Exercice 1 : Construction des arbres sur les protéines homologues à ComD et ComE par une méthode de distance.
Vous trouverez ici les sélections proposées des protéines homologues à ComD et à ComE.
Pour chacun des deux jeux de données réaliser les alignements multiples avec le programme muscle au travers du logiciel seaview puis sauvegarder vos alignement dans deux formats différents Fasta et Mase (ce format est utilisé par le programme phylo_win). Attention au nom de fichier, pas d'espace, d'accentuation etc. Phylo_win est très susceptible ! Conseil : ComD_muscle.fst et ComD_muscle.mase.
Même si le programme phylo_win n'est plus maintenu et remplacé par seaview nous allons l'utiliser pour pouvoir réaliser un arbre en utilisant le modèle évolutif PAM pour calculer les distances entre nos séquences.
Installation du program phylo_win dans votre répertoire de travail. Aller sur le serveur lyonnais PBIL et télécharger la version windows de phymo_win. L'installer.

Construire un arbre de parenté pour chaque jeu de données en utilisant la méthode de distance NJ avec une distance PAM et 10 bootstrap (pas plus car temps de calcul assez long). Sauvegarder votre arbre dans un fichier (option Tree File dans le menu Output). Donner un nom de fichier avec une extension .ph (ex : Tree_ComD_PAM.ph).

Ouvrir le fichier avec un éditeur de texte. Vous découvrirez comment les arbres sont codés en informatique, le format Newick qui est utlisé par la plupart des programmes de phylogénie et interprété pour vous fournir une visualisation graphique d'arbre. Les groupes de séquences sont séparés par des parenthèses, les différents groupes par des virgules, le point virgule indique la fin de l'arbre. Les longueurs de branches sont indiquées par des valeurs précédées de deux points et les valeurs de bootstrap sont indiquées juste après la parenthèse fermante délimitant les groupes.

Importer chacun des arbres dans seaview et grace à l'éditeur d'arbre enraciner les correctements et travailler la mise en forme des topologies de manière à pouvoir comparer facilement les deux arbres (bouton swap mettre les groupes de séquences dans le même ordre si possible).

Comparer et discuter les deux arbres. Conclusion biologique?

Exercice 2 : Construction des arbres en utilisant une méthode du maximum de vraisemblance.
Refaire vos deux arbres en utilisant la PhyML implémentée dans seaview. On utilisera les paramètres par défaut. Comparer à ceux obtenus avec la méthode de distance. Voyez-vous des différences? Si oui, cela est-il étonnant?

Exercice 3 : Analyse de l'effet des paramètres sur la reconstruction d'arbre de séquences protéiques.

Effet du modèle évolutif.

Nous travaillerons avec le jeu de données de ComD. Reconstruire l'arbre avec PhyML mais en chosissant le modèle JTT à la place du modèle LG. Quelle(s) différence(s) voyez vous entre les deux arbres (topologie, longueurs des branches). Lequel des deux arbres est-il le plus vraisemblable? Quel modèle est donc le plus approprié à vos données?

Vitesse différentes d'évolution des sites : nombre de classes de sites

Par défaut le nombre de classes de site est fixé à 4. Essayer 8 classes. Commentaires.

Exercice 4 : Construction de la phylogénie des Streptocoques
Pour réaliser cette phylogénie nous allons utiliser les séquences des ARNr 16S. Nous allons utiliser comme ressource la Ribosomal Database Project II (RDP). Plusieurs outils d'analyses vous sont proposés. Utiliser le Hierarchy browser (lien Browsers) pour sélectionner les séquences d'ARNr 16S des streptococcus. Sélectionner seulement les séquences types.
Combien de séquences obtenez_vous?
Cocher toutes les séquences pour les sélectionner (cliquer dans le +). Ensuite faire download pour qu'elles soient mises dans votre seqCart. On peut choisir en plus de sauvegarder ces séquences sur son ordinateur. Pour cela, choisir le format Fasta et garder l'option Remove common gaps sinon nous obtenons un alignement très long plein de gaps. Ouvrir le fichier avec Seaview (format Fasta). Vous allez voir que vos séquences sont identifiées suivant leur accession number dans la RDP et que vous avez donc perdu le nom de l'espèce. Il va donc falloir les renommer. Comme cela est fastidieux, vous trouverez ici le fichier à utiliser.

Construction de l'arbre.

Vous pouvez soit construire l'arbre directement dans Seaview avec la distance HKY (la plus proche de Tajima&Nei), ou ouvrir ce dernier dans Seaview et sauvegarder en format mase comme à l'exercice 1et réaliser l'arbre phylogénétique avec phylo_win en utilisant la distance de Tajima&Nei et la Neigbor Joining method. Les calculs étant assez rapides vous pouvez tenter 50 bootstrap. Votre topologie est-elle bien résolue?
Nous allons suppimer les séquences d'ARNr 16S qui sont redondantes pour certains organismes. Refaire l'arbre. Etes-vous satisfait de votre topologie.

Recherche du modèle évolutif le plus adapté à nos données.

Etant donné le grand nombre de modèles évolutifs disponibles pour le traitement des séquences d'acides nucléiques, des méthodes ont été développées pour permettre de choisir le modèle le plus adapté aux données. Elles utilisent PhyML comme méthode de reconstruction d'arbre. Deux tests seront utilisés :

Le rapport de vraisemblance ou LRT (Likelihood Ratio Test)

Deux modèles sont comparés (modèle correponsdant à l'hypothèse nulle et le modèle alternatifs) et le rapport des vraisemblances est calculé.

Le rapport de vraisemblance est d'autant plus grand que la vraisemblance du modèle alternatif est grande. Le modèle nul sera rejeté si R est supérieur au seuil fixé par l'utilisateur. Pour que le LRT est un sens il faut que les modèles soient imbriqués car parcours d'un arbre de décision et testé sur une même topologie de référence.

Exemple d'un arbre de décision (extrait du manuel de JModeltest).

L'Akaike Information Criterion (AIC)

C'est une alernative au LRT qui présente l'avantage de pouvoir être appliquée à des hypothèses non imbriquées. C'est un estimateur qui correspond à la minimisation de la distance attendue entre un modèle vrai et son estimation. Les modèles correspondant aux valeurs minimales de l'AIC sont considérés comme les plus appropriés pour la reconstruction. Une même topologie de référence doit être utilisée pour tester les différents modèles.

k = nombre de paramètres libres du modèle

Nous allons donc rechercher le modèle le plus approprié correspondant à nos données sur ComD pour réaliser notre arbre. Aller sur le site de Phylemon2. Créer un compte ou se connecter en tant qu'utilisateur anonyme. Rechercher l'application JMoldelTest. Copier/coller votre alignement. Pour un nombre de type de substitution égale à 3, utiliser les deux méthodes AIC et LRT. Pour cette dernière on effectuera l'option " Do dynamical likelihood ratio tests".
Quel modèle est le plus adéquate?
A quoi correspond ce modèle ? (voir le manuel de JModelTest dans le Help)
Est-il implémenté dans PhyML?
Quel est le second modèle le plus adapté?
Noter l'impact de la correction par la gamma distribution sur la vraisemblance du modèle.
Reconstruire l'arbre en choisissant le modèle proposé dans PhyML et en choisissant Best of NNI & SPR pour la recherche de l'arbre.
Comparer avec le précédent. La topologie est-elle bien résolue?

Nous allons donc essayer d'améliorer celle-ci en recherchant de façon exhaustive le modèle le plus approprié. Pour cela sur Phylemon2 rechercher l'option Phyml Best AIC Tree (v. 1.02b). Sauveragder l'arbre obtenu dans un fichier et importer le ensuite dans seaview.
Persiste-t-il encore des problèmes de résolution des branches?

Sélection des sites.

Certains sites pouvant introduire du bruit, il peut être nécessaire de ne pas les prendre en compte lors de l'analyse phylogénétique. Le programme trimAL permet de "nettoyer" votre alignement. Il est disponible sur Phylemon2. L'appliquer en choisissant la méthode Automated1 optimisé pour les reconstructions phylogénétique utilisant le maximum de vraisemblance). Sauvegarder l'alignement et refaire la reconstruction comme ci-dessus avec l'option Phyml Best AIC Tree (v. 1.02b).

Il nous est difficile d'obtenir une topologie bien résolue car si nous regardons l'alignement des séquences d'ARNr 16S, la majorité des sites sont soit très bien conservés, soit fortement variables.

Utilisation d'un autre jeu de données.

Utilisation d'un gène de ménage, conservé dans l'ensemble des génomes. Protéines GroeL (sequences ici). Faire la reconstruction phylogénétique avec ce nouvel ensemble de séquences. Optimiser pour les sites invariants. Pour les étapes de rebranchements lors de la recherche de l'arbre faire Best of NNI & SPR.
Comparer à l'arbre des ARNr 16S.

On voit qu'il est difficile à partir d'un seul gène d'obtenir une phylogénie stable. D'où les approches de type super-arbre et super-matrice qui ont été développées.