Tutorial Analyse d'une famille de protéines

Introduction

La super-famille des metallo-β-lactamase constitue une très ancienne famille d'enzymes avec un large spectre de substrats comme les acides nucléiques (ADN et ARN) ou les peptides anti-microbiens. On distingue 2 familles parmi les metallo-β-lactamase qui agissent sur les ARN: RNase Z et β-CASP. Il a été démontré que chez Bacillus subtilis la protéine RNaseJ1 (sous-famille des β-CASP) est impliquée dans le métabolisme des ARN avec une activité endonucléase et exonucléase 5'-3'. Par recherche de similarité, une séquence orthologue à la Rnase J1 a été retrouvé chez une Archaea, Pyrococcus abyssi. L'objectif du TD est d'étudier la distribution taxonomique de la RNase J1 chez les Archaea.

Séquence RNase J de Pyrococcus abyssi :

>Pyrococcus abyssi
MWEEINMIKIYTLGGYEEVGKNMTAVEYNGEVVIVDMGIRLDRVLIHEDVEFQKMSSKDL
RKLGAIPDDRPIRNKKVVAIALSHGHLDHIGAVGKLAPHYPDVPIYGTPYTIRLAKSEIK
GEEYFEVTNPLYETNYGEIVQVSENLAIEFVQITHSIPQSSIVVIHTPEGAVVYACDYKF
DNNHPYGERPDYKRLKELGKEGVKVLIAESTRVAEETKTPSEAVAKMLLEDFFLYEGMEA
DGLIATTFASHIARLQELIEIANKMGRQAIFIGRSLAKYTGIAKQLGLIKMKGSRVLRSP
NAVSKVLKEVSQARENYLLIVTGHQGEPGAILTRMANGELYDIGPRDTVVFSAGVIPNPL
NVAQRYALETKLRMKGVRMIKNLHVSGHASKEDHRYLIRMLNPEYIVPAHGEFRMLTHYA
ELAEEEGYMIGKEVFISRNGHVVEIPGSLEG

Exercice 1 : Création de l'échantillon d'étude

Utiliser la séquence de la RNase J de P. abyssi comme sonde pour réaliser une recherche par similitude sur les génomes microbiens complètement séquencés. Pour cela, aller sur le site serveur du NCBI et choisir dans la ressource Genome la section Microbes. Dans le menu, parmi les outils (il faut cliquer pour les ouvrir), se trouve l'option Genomic BLAST. Dans la liste des génomes proposés, cocher 3 génomes dans chacun des groupes taxonomiques des Euryarchaeota suivant:
- Nanoarchaeum
- Thermococcales
- Methanopyrales
- Methanococcales
- Methanobacteriales
- Halobacteriales
- Methanomicrobiales
- Methanosarcinales
- Archaeoglobales
- Thermoplasmatales

Ajouter aussi le génome de Bacillus subtilis.

Nous effectuerons notre recherche contre les protéines (champ database).
Les séquences doivent être extraites au format Fasta. Pour cela, dans la page de réponse de BlastP, cocher les séquences que vous voulez conserver puis cliquer sur GenPept. Changer ensuite le mode d'affichage dans Display Settings en choisissant "Fasta(text)".

Pour faciliter le travail qui va suivre, il est important de renommer chaque séquence en indiquant le groupe taxonomique en choisissant des noms différents pour chaque séquence (Ex: Nequ_Nanoarchaeum).

Réaliser l'alignement multiple en utilisant le programme ClustalW sur le serveur PBIL. Sauvergarder cet alignement sur votre disque (sur la page de réponse, aller à Result files (text), cliquer sur le lien CLUSTALW, sauvegarder la page).
Analyser l'alignement en repérant notamment les régions conservées.

L'étape suivante est d'essayer de trouver une explication fonctionnelle et/ou structurale à ces régions conservées.
La banque de données PROSITE renferme les signatures protéiques qui ont été établies pour différentes familles de protéines à partir d'alignements multiples dans lesquels les zones conservées ont été repérées. Cette conservation peut être représentée sous forme de motifs consensus ou sous forme de profils matriciels. Ces motifs sont ensuite recherchés dans l'ensemble des séquences, et s'ils ne sont trouvés que dans les séquences appartenant à la famille étudiée, ils sont considérés comme caractéristiques de cette famille et constituent une signature protéique. Certains motifs peuvent être associés à une fonction (site catalytique, site de liaison à un ion, etc...).
Pfam et PRODOM sont des banques de données de domaines protéiques, représentés sous forme d'alignements multiples.

Exercice 2 : Recherche de motifs dans les séquences

A partir de l'alignement multiple, établir les motifs PROSITE correspondant aux zones conservées de votre protéine :
Exemple d'un motif PROSITE : G-A-[ILV]-X-D.
Dans les cas où l'acide aminé est strictement conservé dans toutes les séquences alignées, on fait figurer son code à une lettre. C'est le cas ici des acides aminés G,A et D. Quand à une même position de l'alignement, on observe plusieurs acides aminés, on les énumère entre crochets ([ILV]). Si le nombre d'acides aminés différents est trop important, on remplace cette énumération par X qui veut dire n'importe quel acide aminé. Quand on recherchera ce motif dans une séquence, on retiendra comme occurences GAIMD, GAIRD, GALMD, GAVKD etc...
Quand vous avez établi vos motifs, rechercher leur présence dans les séquences de SwissProt et TrEMBL (logiciel ScanProsite) en limitant le nombre de résulats à 1000.

D'après les résultats obtenus, trouvez-vous un de vos motif spécifique d'un groupe taxonomique?
Sinon, établir un motif spécifique de la RNase J des Euryarchaeae.

Exercice 3 : Reconstruction des arbres de parenté
SeaView permet de réaliser des alignements multiples mais également de les éditer. Ouvrez le fichier de l'alignement précedemment obtenu avec CLUSTALW et si une séquence vous paraît mal alignée, corriger l'alignement.

Il existe plusieurs méthode de reconstruction d'arbre, lisez ICI l'introduction à l'évolution moléculaire.

On utilisera une méthode de distance pour reconstruire l'arbre de parenté : la méthode Neighbor Joining.
Finalement, pour connaître la confiance que vous pouvez avoir dans votre topologie, réalisez la construction en demandant 100 bootstrap.
L'arbre produit peut être "redessiner". Vous pouvez changer la présentation de votre arbre (notamment quand vous voudrez comparer avec l'arbre des espèces) en choisissant l'option "swap node" qui permet de faire "tourner" la branche autour du noeud. Ceci ne change pas la topologie, juste sa présentation et peut permettre de comparer plus facilement deux arbres.

Analyser votre arbre. Comment les séquences se regroupent-elles sur l'arbre? La RNase J est elle présente dans tous les groupes d'Euryarchaea précédemment cités?

Exercice 4 : Comparaison avec la phylogénie des Euryarchaeota
Pour réaliser un arbre des espèces il existe plusieurs possibilités.
La première possibilité est d'utiliser les séquences des ARN 16S disponibles sur le site Ribosomal Database Project II (RDP).
ICI l'arbre donné est basé sur la concaténation de 70 séquences protéiques ubiquitaires. Ouvrez cet arbre avec Seaview et comparer le avec l'arbre obtenu pour la RNase J.
Quelle(s) hypothèses(s) sur l'histoire évolutive de la RNase J pouvez vous émettre?

Centres de ressources en bioinformatique : une sélection de sites Internet

EBI European Bioinformatics Institute (EMBL, GB)énopôle
NCBI National Center for Biotechnology Information (NIH, USA)
Expasy Expert Protein Analysis System (Swiss Institute of Bioinformatics, Suisse)
PBIL Pôle Bio-Informatique Lyonnais (Lyon, CNRS)
Génopôle Toulouse
Insitut Pasteur