silico.biotoul.fr
 

Analyse de séquences II: alignements multiples et profils

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
Line 28: Line 28:
>prot
>prot
 +
MKLLSKTFLILTLTFFFFGIALAKQSFEPEIEALKSFKNGISNDPLGVLSDWTIIGSLRHCNWTGITCDS
MKLLSKTFLILTLTFFFFGIALAKQSFEPEIEALKSFKNGISNDPLGVLSDWTIIGSLRHCNWTGITCDS
TGHVVSVSLLEKQLEGVLSPAIANLTYLQVLDLTSNSFTGKIPAEIGKLTELNQLILYLNYFSGSIPSGI
TGHVVSVSLLEKQLEGVLSPAIANLTYLQVLDLTSNSFTGKIPAEIGKLTELNQLILYLNYFSGSIPSGI

Revision as of 10:50, 21 November 2011

Contents

Analyse de la famille protéique

Recherche dans les banques par similitude de séquences

Utiliser votre protéine (P10415) comme sonde pour une recherche avec le logiciel BlastP sur le site du NCBI, en choisissant soit la banque nr, soit la banque SwissProt. Différence entre les deux résultats?

Les résultats du programme Blast vous ont montré que votre séquence appartenait à une famille bien représentée dans les banques de données. Vous disposez donc d'un ensemble de séquences qui vont vous permettre de faire une analyse plus approfondie, notamment de rechercher la présence de régions conservées dans ces séquences, qui pourront être des sites privilégiés pour des expériences de mutagénèse. Pour cela, on réalisera un alignement multiple des séquences.

Alignement multiple

A partir des résultats obtenus à l'exercice précédent avec la banque SwissProt, sélectionner un ensemble de séquences pour réaliser l'alignement multiple (une dizaine). Attention, si vous voulez faire ressortir des zones conservées versus des zones peu ou pas conservées au cours de l'évolution, il faut construire un échantillon dans lequel vous prendrez en compte des séquences proches mais aussi des séquences éloignées. Ne pas oublier d'inclure la protéine d'intérêt. Les séquences doivent être extraites au format FASTA. Pour cela, dans la page de réponse de BlastP, cocher les séquences que vous voulez conserver puis à la fin de la page, cliquer sur Get selected sequences. Dans la nouvelle page, choisir dans le menu Display FASTA et dans le menu Send to Text ou Send to File. Sauvegarder les séquences dans un fichier texte. Réaliser l'alignement multiple en utilisant le programme ClustalW sur le serveur PBIL. Sauvegarder cet alignement sur votre disque (sur la page de réponse, aller à Result files (text), cliquer sur le lien CLUSTALW, sauvegarder la page). Analyser l'alignement en repérant notamment les régions conservées.

L'étape suivante consiste à essayer de trouver une explication fonctionnelle et/ou structurale à ces régions conservées. La banque de données PROSITE renferme les signatures protéiques qui ont été établies pour différentes familles de protéines à partir d'alignements multiples dans lesquels les zones conservées ont été repérées. Cette conservation peut être représentée sous forme de motifs consensus ou sous forme de profils matriciels. Ces motifs sont ensuite recherchés dans l'ensemble des séquences, et s'ils ne sont trouvés que dans les séquences appartenant à la famille étudiée, ils sont considérés comme caractéristiques (spécifiques) de cette famille et constituent une signature protéique. Certains motifs peuvent être associés à une fonction (site catalytique, site de liaison à un ion, etc).

Est-ce que les zones que vous avez repérées correspondent aux motifs et domaines identifiés en tout début d'analyse (section Analyse d'une séquence protéique, partie ScanProsite et InterPro Scan) ?

Recherche de motifs et de domaines dans les séquences

A partir de l'alignement multiple, établir un motif PROSITE correspondant à une zone conservée que vous espérez spécifique de la famille. Exemple d'un motif PROSITE : G-A-[ILV]-X-D. Dans les cas où l'acide aminé est strictement conservé dans toutes les séquences alignées, on fait figurer son code à une lettre. C'est le cas ici des acides aminés G,A et D. Quand à une même position de l'alignement, on observe plusieurs acides aminés, on les énumère entre crochets ([ILV]). Si le nombre d'acides aminés différents est trop important, on remplace cette énumération par X qui veut dire n'importe quel acide aminé. Quand on recherchera ce motif dans une séquence, on retiendra comme occurrences GAIMD, GAIRD, GALMD, GAVKD, etc.

Quand vous avez établi votre motif, rechercher sa présence dans les séquences de SwissProt et TrEMBL (logiciel ScanProsite). D'après les résultats obtenus, pensez-vous qu'il est spécifique aux séquences de la famille à laquelle appartient votre protéine ?

Mis en application

Au laboratoire, vous êtes amenés a travailler sur le gène dont la séquence déduite en acides aminés est présentée ci-dessous:

>prot

MKLLSKTFLILTLTFFFFGIALAKQSFEPEIEALKSFKNGISNDPLGVLSDWTIIGSLRHCNWTGITCDS TGHVVSVSLLEKQLEGVLSPAIANLTYLQVLDLTSNSFTGKIPAEIGKLTELNQLILYLNYFSGSIPSGI WELKNIFYLDLRNNLLSGDVPEEICKTSSLVLIGFDYNNLTGKIPECLGDLVHLQMFVAAGNHLTGSIPV SIGTLANLTDLDLSGNQLTGKIPRDFGNLLNLQSLVLTENLLEGDIPAEIGNCSSLVQLELYDNQLTGKI PAELGNLVQLQALRIYKNKLTSSIPSSLFRLTQLTHLGLSENHLVGPISEEIGFLESLEVLTLHSNNFTG EFPQSITNLRNLTVLTVGFNNISGELPADLGLLTNLRNLSAHDNLLTGPIPSSISNCTGLKLLDLSHNQM TGEIPRGFGRMNLTFISIGRNHFTGEIPDDIFNCSNLETLSVADNNLTGTLKPLIGKLQKLRILQVSYNS LTGPIPREIGNLKDLNILYLHSNGFTGRIPREMSNLTLLQGLRMYSNDLEGPIPEEMFDMKLLSVLDLSN NKFSGQIPALFSKLESLTYLSLQGNKFNGSIPASLKSLSLLNTFDISDNLLTGTIPGELLASLKNMQLYL NFSNNLLTGTIPKELGKLEMVQEIDLSNNLFSGSIPRSLQACKNVFTLDFSQNNLSGHIPDEVFQGMDMI ISLNLSRNSFSGEIPQSFGNMTHLVSLDLSSNNLTGEIPESLANLSTLKHLKLASNNLKGHVPESGVFKN INASDLMGNTDLCGSKKPLKPCTIKQKSSHFSKRTRVILIILGSAAALLLVLLLVLILTCCKKKEKKIEN SSESSLPDLDSALKLKRFEPKELEQATDSFNSANIIGSSSLSTVYKGQLEDGTVIAVKVLNLKEFSAESD KWFYTEAKTLSQLKHRNLVKILGFAWESGKTKALVLPFMENGNLEDTIHGSAAPIGSLLEKIDLCVHIAS GIDYLHSGYGFPIVHCDLKPANILLDSDRVAHVSDFGTARILGFREDGSTTASTSAFEGTIGYLAPEFAY MRKVTTKADVFSFGIIMMELMTKQRPTSLNDEDSQDMTLRQLVEKSIGNGRKGMVRVLDMELGDSIVSLK QEEAIEDFLKLCLFCTSSRPEDRPDMNEILTHLMKLRGKANSFREDRNEDREV

<--! FLS2 A. thaliana, recepteur LRR-kinase >gi|15237426|ref|NP_199445.1| LRR receptor-like serine/threonine-protein kinase FLS2 [Arabidopsis thaliana] -->

Avec les outils utilisés au cours des différentes séances de TD, réponsez aux questions suivantes:

  • a quel organisme appartient cette séquence ?
  • quelles différences observez lors d'une analyse Balst, sur la nr ou SwissProt ?