Tutorial Analyse d'une famille de protéines

Introduction

La super-famille des metallo-β-lactamase constitue une très ancienne famille d'enzymes avec un large spectre de substrats comme les acides nucléiques (ADN et ARN) ou les peptides anti-microbiens. On distingue 2 familles parmi les metallo-β-lactamase qui agissent sur les ARN: RNase Z et β-CASP. Il a été démontré que chez Bacillus subtilis la protéine RNaseJ1 (sous-famille des β-CASP) est impliquée dans le métabolisme des ARN avec une activité endonucléase et exonucléase 5'-3'. Par recherche de similarité, une séquence orthologue à la Rnase J1 a été retrouvé chez une Archaea, Pyrococcus abyssi. L'objectif du TD est d'étudier la distribution taxonomique de la RNase J1 chez les Archaea.

Séquence RNase J de Pyrococcus abyssi :

>Pyrococcus abyssi
MWEEINMIKIYTLGGYEEVGKNMTAVEYNGEVVIVDMGIRLDRVLIHEDVEFQKMSSKDL
RKLGAIPDDRPIRNKKVVAIALSHGHLDHIGAVGKLAPHYPDVPIYGTPYTIRLAKSEIK
GEEYFEVTNPLYETNYGEIVQVSENLAIEFVQITHSIPQSSIVVIHTPEGAVVYACDYKF
DNNHPYGERPDYKRLKELGKEGVKVLIAESTRVAEETKTPSEAVAKMLLEDFFLYEGMEA
DGLIATTFASHIARLQELIEIANKMGRQAIFIGRSLAKYTGIAKQLGLIKMKGSRVLRSP
NAVSKVLKEVSQARENYLLIVTGHQGEPGAILTRMANGELYDIGPRDTVVFSAGVIPNPL
NVAQRYALETKLRMKGVRMIKNLHVSGHASKEDHRYLIRMLNPEYIVPAHGEFRMLTHYA
ELAEEEGYMIGKEVFISRNGHVVEIPGSLEG

Exercice 1 : Création de l'échantillon d'étude

Utiliser la séquence  de la RNase J de P. abyssi comme sonde pour réaliser une recherche par similitude sur les protéines codées par les génomes microbiens complètement séquencés. Pour cela, aller sur le site serveur du NCBI et choisir Genomes & Maps dans le menu à gauche. Ensuite dans la ressource Genome et choisir la section Microbes. Cliquer ensuite sur le menu Tools (à droite) pour obtenir la liste des logiciels disponibles et choisir l'option   Genomic BLAST. Votre séquence sonde étant une protéine et votre banque de données étant protéiques, choisir le bon logiciel de la suite Blast pour effectuer votre recherche.
Vous allez effectuer cette recherche pas à pas pour chacun des groupes taxonomiques donnés ci-dessous. Pour cela, dans la page de soumission de Blast, renseigner la case Organism (dans Choose Search Set) avec le nom du groupe qui vous est donné et limiter votre recherche aux séquences protéiques de RefSeq non redondantes.
Sélectionner 3 séquences de 3 espèces différentes quand cela vous est possible (au moins trois espèces du groupe taxonomique dont les génomes ont été séquencés). Une fois cette sélection réalisée, récupérer les séquences en format Fasta. Pour cela, aller dans Download et choisir le format FASTA (complete sequence). A la première recherche, enregistrer le fichier. Ensuite, pour les recherches suivantes, compléter ce fichier en copiant/collant les séquences. A la fin, vous aurez donc constitué un fichier avec l'ensemble de vos séquences d'études. Na pas oublier d'y ajouter celle de P. abyssi. La séquence de la bactérie Bacillus subtilis servira de groupe externe lors de la reconstruction de l'arbre phylogénétique.

Liste des groupes taxonomiques des Euryarchaeota :

- Nanoarchaeum
- Thermococcales
- Methanopyrales
- Methanococcales
- Methanobacteriales
- Halobacteriales
- Methanomicrobiales
- Methanosarcinales
- Archaeoglobales
- Thermoplasmatales

Procéder de la même façon pour rechercher la protéine RNaseJ1 dans Bacillus subtilis (Organism Bacillus subtilis mais décocher Non-redundant RefSeq proteins)

Pour faciliter le travail qui va suivre, il est important de renommer chaque séquence en indiquant le groupe taxonomique en choisissant des noms différents pour chaque séquence (Ex: Nequ_Nanoarchaeum).

Réaliser l'alignement multiple en utilisant le programme ClustalW sur le serveur PBIL. Sauvergarder cet alignement sur votre disque (sur la page de réponse, aller à Result files (text), cliquer sur le lien CLUSTALW, sauvegarder la page).
Analyser l'alignement en repérant notamment les régions conservées.

L'étape suivante est d'essayer de trouver une explication fonctionnelle et/ou structurale à ces régions conservées.
La banque de données PROSITE renferme les signatures protéiques qui ont été établies pour différentes familles de protéines à partir d'alignements multiples dans lesquels les zones conservées ont été repérées. Cette conservation peut être représentée sous forme de motifs consensus ou sous forme de profils matriciels. Ces motifs sont ensuite recherchés dans l'ensemble des séquences, et s'ils ne sont trouvés que dans les séquences appartenant à la famille étudiée, ils sont considérés comme caractéristiques de cette famille et constituent une signature protéique. Certains motifs peuvent être associés à une fonction (site catalytique, site de liaison à un ion, etc...).
Pfam et PRODOM sont des banques de données de domaines protéiques, représentés sous forme d'alignements multiples.


Exercice 2 : Recherche de motifs dans les séquences

A partir de l'alignement multiple, établir les motifs PROSITE correspondant aux zones conservées de votre protéine :
Exemple d'un motif PROSITE :    G-A-[ILV]-X-D.
Dans les cas où l'acide aminé est strictement conservé dans toutes les séquences alignées, on fait figurer son code à une lettre. C'est le cas ici des acides aminés G,A et D. Quand à une même position de l'alignement, on observe plusieurs acides aminés, on les énumère entre crochets ([ILV]). Si le nombre d'acides aminés différents est trop important, on remplace cette énumération par X qui veut dire n'importe quel acide aminé. Quand on recherchera ce motif dans une séquence, on retiendra comme occurences  GAIMD,  GAIRD,  GALMD,  GAVKD etc...
Quand vous avez établi vos motifs, rechercher leur présence dans les séquences de SwissProt et TrEMBL (logiciel ScanProsite) en limitant le nombre de résulats à 1000. Choisir donc la bonne option du logiciel  puis parcourir les différentes étapes pour effectuer les choix demandés.

D'après les résultats obtenus, trouvez-vous un de vos motif spécifique d'un groupe taxonomique?
Sinon, établir un motif spécifique de la RNase J des Euryarchaeae.


Exercice 3 : Reconstruction des arbres de parenté

SeaView permet de réaliser des alignements multiples mais également de les éditer. Vous devez normallement y avoir accès sur votre ordinateur. Si cela n'est pas le cas, vous pouvez le télécharger et l'installer en allant sur le site du PRABI.
Ouvrez le fichier de l'alignement précedemment obtenu avec CLUSTALW et si une séquence vous paraît mal alignée, corriger l'alignement.

Il existe plusieurs méthode de reconstruction d'arbre, lisez ICI l'introduction à l'évolution moléculaire.

Dans un premier temps, on utilisera une méthode de distance  pour reconstruire l'arbre de parenté : la méthode BioNJ (plus rapide).
Pour connaître la confiance que vous pouvez avoir dans votre topologie, réalisez la construction en demandant 100 bootstrap.
S'il vous reste du temps, vous pouvez ensuite utiliser une méthode de maximum de vraisemblance pour reconstruire l'arbre de parenté : la méthode PhyML.Vous garderez les différents paramétres proposé par défaut notamment le modèle évolutif proposé (modèle LG).  Ne pas cocher la case bootstrap car très long. La méthode aLRT (bootstrap paramétrique) vous permettra également d'évaluer la robustesse de chacune des branches internes de votre arbre et s'interprète comme le bootstrap vu en cours.

L'arbre produit peut être "redessiner". Vous pouvez changer la présentation de votre arbre (notamment quand vous voudrez comparer avec l'arbre des espèces) en choisissant l'option "swap node" qui permet de faire "tourner" la branche autour du noeud. Ceci ne change pas la topologie, juste sa présentation et peut permettre de comparer plus facilement deux arbres.

Analyser votre arbre. Comment les séquences se regroupent-elles sur l'arbre? La RNase J est elle présente dans tous les groupes d'Euryarchaea précédemment cités?

Exercice 4 : Comparaison avec la phylogénie des Euryarchaeota

Pour réaliser un arbre des espèces il existe plusieurs possibilités.
La première possibilité est d'utiliser les séquences des ARN 16S disponibles sur le site Ribosomal Database Project II (RDP).
ICI l'arbre donné est basé sur la concaténation de 70 séquences protéiques ubiquitaires. Ouvrez cet arbre avec Seaview et comparer le avec l'arbre obtenu pour la RNase J.
Quelle(s) hypothèses(s) sur l'histoire évolutive de la RNase J pouvez  vous émettre?


Centres de ressources en bioinformatique : une sélection de sites Internet


EBI European Bioinformatics Institute (EMBL, GB)énopôle
NCBI National Center for Biotechnology Information (NIH, USA)
Expasy Expert Protein Analysis System (Swiss Institute of Bioinformatics, Suisse)
PBIL Pôle Bio-Informatique Lyonnais (Lyon, CNRS)
Génopôle Toulouse
Insitut Pasteur