silico.biotoul.fr
 

TD2 Genome Selection Plantes

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(Exercice 3 : Analyse d'une séquence protéique)
(Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot))
(67 intermediate revisions not shown)
Line 1: Line 1:
 +
'''
==Objectifs==
==Objectifs==
-
Ce TD a pour but d'apprendre a comparer des séquences deux a deux via différentes methodes (matrice de point, alignement global et local)
+
Ce TD a pour but d'apprendre a comparer des séquences deux a deux via différentes methodes (matrice de point, alignement global et local), à definir des signatures protéiques après utilisation d'alignement multiple, a mettre en application votre savoir-faire !
 +
 
 +
Quelques liens utiles:
 +
*[https://www.ncbi.nlm.nih.gov/ NCBI]
 +
 
 +
*[http://www.ebi.ac.uk/ EBI - European Bioinformatics Institute]
== Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot) ==
== Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot) ==
Line 8: Line 14:
* Que pouvez vous dire sur ces 2 séquences ?
* Que pouvez vous dire sur ces 2 séquences ?
* Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot).  
* Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot).  
-
Les logiciels sont disponibles dans la suite [http://vm-bioinfo.toulouse.inra.fr/emboss/ EMBOSS].
+
Les logiciels sont disponibles dans la suite EMBOSS [http://bioinfo.genotoul.fr/ de la Genopole de Toulouse] ou du centre de [http://www.bioinformatics.nl/emboss-explorer/ Bioinformatique des Pays Bas]
-
:Utiliser '''DOTPATH''' qui permet de dessiner un '''dotplot''' avec une taille de mot fixée.
+
:Utiliser '''DOTPATH''' qui permet de dessiner un '''dotplot''' avec une taille de mot fixée et visualiser des diagonales 'd'identité'
 +
:Faites la même analyse avec '''DOTMATCHER''' en gardant les paramètres par défaut, et qui permet de visualiser des diagnonales de 'similarité'
:Que pouvez-vous conclure ?
:Que pouvez-vous conclure ?
-
== Exercice 2: Comparaison de 2 séquences par alignement global et local ==
+
== Exercice 2: Comparaison de 2 séquences par alignement global et local : Cas d'Ecole==
-
Nous allons continuer la comparaison entre nos 2 séquences en utilisant des méthodologies d'alignement permettant d'évaluer la significativité de l'alignement 
+
Voici 2 séquences, au format FASTA :
-
* Faites un alignement '''global''' (de bout à bout) entre les 2 séquences avec '''Needle''' disponible sur EMBOSS
+
>prot1
 +
 
 +
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS
 +
 
 +
>prot2
 +
 
 +
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI
 +
 
 +
*Faites un dotplot de ces 2 séquences : qu'observez-vous ?
 +
 
 +
* Faites un alignement '''global''' (de bout à bout) entre les 2 séquences avec '''Stretcher''' disponible sur EMBOSS
:Qu'observez vous ?
:Qu'observez vous ?
:Combien y a-t-il de gaps ? A quoi correspondent-ils ?<br/>
:Combien y a-t-il de gaps ? A quoi correspondent-ils ?<br/>
Line 23: Line 40:
:Votre alignement est-il significatif ?
:Votre alignement est-il significatif ?
-
* Faites un alignement local avec '''Matcher''' disponible sur EMBOSS
+
* Faites un alignement local avec '''Matcher''' disponible sur EMBOSS.
 +
'''''NB:''' dans 'alternative matches' indiquez 10, de façon a visualiser 10 alignements locaux''
:Qu'observez-vous ? <br/>
:Qu'observez-vous ? <br/>
-
:Demandez à voir d'autres alignements.<br/>
+
:Regardez les autres alignements locaux. Sont-il significatifs ? <br/>
-
:Sont-ils significatifs ?
+
-
== Exercice 3 : Analyse d'une séquence protéique ==
+
'''''NB''': si vous avez besoin de convertir vos séquences au Format Fasta un petit outil bien utile  :[https://www-bimas.cit.nih.gov/cgi-bin/molbio/sequence_conversion ReadSeq]''
-
Afin d'appréhender l'organisation structurale et la localisation cellulaire de BCL2, une analyse fine des séquences protéiques est nécessaire.
+
-
* Allez sur le site d'[http://www.expasy.org/ Expasy]. Qu'est-ce que le serveur '''Expasy''' ?
+
== Exercice 3 : Comparaison de plusieurs séquences par alignement multiple ==
-
: Les outils mis à votre disposition sont soit dans le menu ''Categories'', soit accessible à partir de la liste complète depuis le lien ''Ressources A--Z'' de la page d'accueil.
+
-
* Etudiez maintenant la plus longue des deux séquences trouvées précédemment.
+
L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'en définir les liens évolutifs ou d'identifier des 'zones' (motifs/domaines) conservés pouvant décrire la famille protéique
-
: Trouvez un ou des programmes pour calculer le poids moléculaire et le point isoélectrique de la protéine.
+
* Dans la banque de données UniProt/SwissProt au NCBI, identifiez les séquences protéiques "THAP" de l'homme, la souris, le poulet et le zebrafish. Eliminez les séquences isoformes 2 et 3.
 +
* Récupérez l'ensemble des séquences dans un fichier au format Fasta
 +
* Réalisez un alignement de l'ensemble des séquences (=alignement multiple) en utilisant Clustal Omega disponible a [https://www.ebi.ac.uk/ l'EBI] (>Services)
 +
* Trouvez-vous des 'zones similaires' (=domaines) à l'ensemble de ces séquences.
 +
'''''NB : Le motif  'AVPTIF' marque une partie du domaine : le trouvez-vous sur toutes les séquences ?'''''
-
: Utilisez '''ScanProsite''', et '''InterPro Scan''' pour chercher si elle contient des domaines connus. Analysez les domaines identifiés et notez leur position.
+
Nous allons maintenant essayer de construire un pattern/signature caractéristique de cette famille de protéine en sebasant sur les 'zones similaires' préalablement identifiées
-
: Recherchez si la protéine contient des domaines membranaires.
+
*Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap)
 +
    Voici l'exemple d'un début d'une signature (ou ''pattern'') : '''Q-L-x(3)-P-x(6)-[FY]-x(2)-V-x(3)-[LVF]-[FGD]-x(2,8)-[GPS]'''
 +
Comment lire cette signature ? <br>
 +
    Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement <br>
 +
    x(3) : 3 colonnes avec des acides aminés variables <br>
 +
    [FY] : dans cette colonne seuls les acides aminés F ou Y sont présents <br>
 +
    x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences <br>
-
* Synthétisez les différentes informations et résultats que vous avez obtenus et comparez-les avec les annotations présentes dans la fiche de la séquence.
+
*Tester la spécificité de votre signature sur [http://prosite.expasy.org/scanprosite/ '''ScanProsite'''] (choisir l'option 2) contre SwissProt ou trEMBL (plus long !) <br>
-
== Exercice 3 : Comparaison de plusieurs séquences par alignement multiple ==
+
= Mise en application...=
-
L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'en définir les liens évolutifs.
+
Au laboratoire, vous êtes amenés a travailler sur la séquence ci-dessous:
 +
<!--
 +
>prot
 +
IGNLKDLNILYLHSNGFTGRIPREMSNLTLANLTDLDLSGNQLTGKIPRDFAALLLVLLEKKIENITCDS
 +
MKLLSKTFLILTLTFFFFGIALAKQSFEPEIEALKSFKNGISNDPLGVLSDWTIIGSLRHCNWTGITCDS
 +
TGHVVSVSLLEKQLEGVLSPAIANLTYLQVLDLTSNSFTGKIPAEIGKLTELNQLILYLNYFSGSIPSGI
 +
WELKNIFYLDLRNNLLSGDVPEEICKTSSLVLIGFDYNNLTGKIPECLGDLVHLQMFVAAGNHLTGSIPV
 +
SIGTLANLTDLDLSGNQLTGKIPRDFGNLLNLQSLVLTENLLEGDIPAEIGNCSSLVQLELYDNQLTGKI
 +
PAELGNLVQLQALRIYKNKLTSSIPSSLFRLTQLTHLGLSENHLVGPISEEIGFLESLEVLTLHSNNFTG
 +
EFPQSITNLRNLTVLTVGFNNISGELPADLGLLTNLRNLSAHDNLLTGPIPSSISNCTGLKLLDLSHNQM
 +
TGEIPRGFGRMNLTFISIGRNHFTGEIPDDIFNCSNLETLSVADNNLTGTLKPLIGKLQKLRILQVSYNS
 +
LTGPIPREIGNLKDLNILYLHSNGFTGRIPREMSNLTLLQGLRMYSNDLEGPIPEEMFDMKLLSVLDLSN
 +
NKFSGQIPALFSKLESLTYLSLQGNKFNGSIPASLKSLSLLNTFDISDNLLTGTIPGELLASLKNMQLYL
 +
NFSNNLLTGTIPKELGKLEMVQEIDLSNNLFSGSIPRSLQACKNVFTLDFSQNNLSGHIPDEVFQGMDMI
 +
ISLNLSRNSFSGEIPQSFGNMTHLVSLDLSSNNLTGEIPESLANLSTLKHLKLASNNLKGHVPESGVFKN
 +
INASDLMGNTDLCGSKKPLKPCTIKQKSSHFSKRTRVILIILGSAAALLLVLLLVLILTCCKKKEKKIEN
 +
SSESSLPDLDSALKLKRFEPKELEQATDSFNSANIIGSSSLSTVYKGQLEDGTVIAVKVLNLKEFSAESD
 +
KWFYTEAKTLSQLKHRNLVKILGFAWESGKTKALVLPFMENGNLEDTIHGSAAPIGSLLEKIDLCVHIAS
 +
GIDYLHSGYGFPIVHCDLKPANILLDSDRVAHVSDFGTARILGFREDGSTTASTSAFEGTIGYLAPEFAY
 +
MRKVTTKADVFSFGIIMMELMTKQRPTSLNDEDSQDMTLRQLVEKSIGNGRKGMVRVLDMELGDSIVSLK
 +
QEEAIEDFLKLCLFCTSSRPEDRPDMNEILTHLMKLRGKANSFREDRNEDREV
-
* Réalisez un Blast avec P10415 sur la banque SwissProt
+
FLS2 A. thaliana, recepteur LRR-kinase >gi|15237426|ref|NP_199445.1| LRR receptor-like serine/threonine-protein kinase FLS2 [Arabidopsis thaliana] -->
-
* Sélectionner un ensemble de séquences pour réaliser l'alignement multiple (une dizaine).
+
>seq1
-
'''''ATTENTION:''' si vous voulez faire ressortir des zones conservées versus des zones peu ou pas conservées au cours de l'évolution, il faut construire un échantillon dans lequel vous prendrez en compte des séquences proches mais aussi des séquences éloignées.
+
-
''Ne pas oublier  d'inclure la protéine d'intérêt P10415''
+
-
''
+
-
Les séquences doivent être extraites au format FASTA. Pour cela, dans la page de réponse de BlastP, cocher les séquences que vous voulez conserver puis à la fin de la page, cliquer sur ''Get selected sequences''. Dans la nouvelle page, choisir dans le menu ''Display FASTA (text)''. Sauvegarder les séquences dans un fichier texte. <br/>
+
attggcaacctgaaagatctgaacattctgtatctgcatagcaacggctttaccggccgc
-
 
+
attccgcgcgaaatgagcaacctgaccctggcgaacctgaccgatctggatctgagcggc
-
*Sur le site de l'EBI utiliser [http://www.ebi.ac.uk/Tools/msa/mafft/ '''MAFFT'''] pour construire un alignement multiple (dans Services => Proteins => MAFFT, choisir Output format : Clustal) : regarder l'alignement, et garder cette page ouverte ! <br>
+
aaccagctgaccggcaaaattccgcgcgattttgcggcgctgctgctggtgctgctggaa
-
 
+
aaaaaaattgaaaacattacctgcgatagcatgaaactgctgagcaaaacctttctgatt
-
* Visualiser l'alignement soit avec Jalview (dans Result summary) soit avec Mview (toujours à l'EBI) : regarder l'alignement. Où sont les parties conservées ? Voyez-vous apparaitre des groupes de séquences ?
+
ctgaccctgaccttttttttttttggcattgcgctggcgaaacagagctttgaaccggaa
-
 
+
attgaagcgctgaaaagctttaaaaacggcattagcaacgatccgctgggcgtgctgagc
-
*Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap)
+
gattggaccattattggcagcctgcgccattgcaactggaccggcattacctgcgatagc
-
    Pour vous aider, voici la début d'une signature (ou ''pattern'') : '''Q-L-x(3)-P-x(6)-[FY]-x(2)-V-x(3)-[LVF]-[FGD]-x(2,8)-[GPS]'''
+
accggccatgtggtgagcgtgagcctgctggaaaaacagctggaaggcgtgctgagcccg
 +
gcgattgcgaacctgacctatctgcaggtgctggatctgaccagcaacagctttaccggc
 +
aaaattccggcggaaattggcaaactgaccgaactgaaccagctgattctgtatctgaac
 +
tattttagcggcagcattccgagcggcatttgggaactgaaaaacattttttatctggat
 +
ctgcgcaacaacctgctgagcggcgatgtgccggaagaaatttgcaaaaccagcagcctg
 +
gtgctgattggctttgattataacaacctgaccggcaaaattccggaatgcctgggcgat
 +
ctggtgcatctgcagatgtttgtggcggcgggcaaccatctgaccggcagcattccggtg
 +
agcattggcaccctggcgaacctgaccgatctggatctgagcggcaaccagctgaccggc
 +
aaaattccgcgcgattttggcaacctgctgaacctgcagagcctggtgctgaccgaaaac
 +
ctgctggaaggcgatattccggcggaaattggcaactgcagcagcctggtgcagctggaa
 +
ctgtatgataaccagctgaccggcaaaattccggcggaactgggcaacctggtgcagctg
 +
caggcgctgcgcatttataaaaacaaactgaccagcagcattccgagcagcctgtttcgc
 +
ctgacccagctgacccatctgggcctgagcgaaaaccatctggtgggcccgattagcgaa
 +
gaaattggctttctggaaagcctggaagtgctgaccctgcatagcaacaactttaccggc
 +
gaatttccgcagagcattaccaacctgcgcaacctgaccgtgctgaccgtgggctttaac
 +
aacattagcggcgaactgccggcggatctgggcctgctgaccaacctgcgcaacctgagc
 +
gcgcatgataacctgctgaccggcccgattccgagcagcattagcaactgcaccggcctg
 +
aaactgctggatctgagccataaccagatgaccggcgaaattccgcgcggctttggccgc
 +
atgaacctgacctttattagcattggccgcaaccattttaccggcgaaattccggatgat
 +
atttttaactgcagcaacctggaaaccctgagcgtggcggataacaacctgaccggcacc
 +
ctgaaaccgctgattggcaaactgcagaaactgcgcattctgcaggtgagctataacagc
 +
ctgaccggcccgattccgcgcgaaattggcaacctgaaagatctgaacattctgtatctg
 +
catagcaacggctttaccggccgcattccgcgcgaaatgagcaacctgaccctgctgcag
 +
ggcctgcgcatgtatagcaacgatctggaaggcccgattccggaagaaatgtttgatatg
 +
aaactgctgagcgtgctggatctgagcaacaacaaatttagcggccagattccggcgctg
 +
tttagcaaactggaaagcctgacctatctgagcctgcagggcaacaaatttaacggcagc
 +
attccggcgagcctgaaaagcctgagcctgctgaacacctttgatattagcgataacctg
 +
ctgaccggcaccattccgggcgaactgctggcgagcctgaaaaacatgcagctgtatctg
 +
aactttagcaacaacctgctgaccggcaccattccgaaagaactgggcaaactggaaatg
 +
gtgcaggaaattgatctgagcaacaacctgtttagcggcagcattccgcgcagcctgcag
 +
gcgtgcaaaaacgtgtttaccctggattttagccagaacaacctgagcggccatattccg
 +
gatgaagtgtttcagggcatggatatgattattagcctgaacctgagccgcaacagcttt
 +
agcggcgaaattccgcagagctttggcaacatgacccatctggtgagcctggatctgagc
 +
agcaacaacctgaccggcgaaattccggaaagcctggcgaacctgagcaccctgaaacat
 +
ctgaaactggcgagcaacaacctgaaaggccatgtgccggaaagcggcgtgtttaaaaac
 +
attaacgcgagcgatctgatgggcaacaccgatctgtgcggcagcaaaaaaccgctgaaa
 +
ccgtgcaccattaaacagaaaagcagccattttagcaaacgcacccgcgtgattctgatt
 +
attctgggcagcgcggcggcgctgctgctggtgctgctgctggtgctgattctgacctgc
 +
tgcaaaaaaaaagaaaaaaaaattgaaaacagcagcgaaagcagcctgccggatctggat
 +
agcgcgctgaaactgaaacgctttgaaccgaaagaactggaacaggcgaccgatagcttt
 +
aacagcgcgaacattattggcagcagcagcctgagcaccgtgtataaaggccagctggaa
 +
gatggcaccgtgattgcggtgaaagtgctgaacctgaaagaatttagcgcggaaagcgat
 +
aaatggttttataccgaagcgaaaaccctgagccagctgaaacatcgcaacctggtgaaa
 +
attctgggctttgcgtgggaaagcggcaaaaccaaagcgctggtgctgccgtttatggaa
 +
aacggcaacctggaagataccattcatggcagcgcggcgccgattggcagcctgctggaa
 +
aaaattgatctgtgcgtgcatattgcgagcggcattgattatctgcatagcggctatggc
 +
tttccgattgtgcattgcgatctgaaaccggcgaacattctgctggatagcgatcgcgtg
 +
gcgcatgtgagcgattttggcaccgcgcgcattctgggctttcgcgaagatggcagcacc
 +
accgcgagcaccagcgcgtttgaaggcaccattggctatctggcgccggaatttgcgtat
 +
atgcgcaaagtgaccaccaaagcggatgtgtttagctttggcattattatgatggaactg
 +
atgaccaaacagcgcccgaccagcctgaacgatgaagatagccaggatatgaccctgcgc
 +
cagctggtggaaaaaagcattggcaacggccgcaaaggcatggtgcgcgtgctggatatg
 +
gaactgggcgatagcattgtgagcctgaaacaggaagaagcgattgaagattttctgaaa
 +
ctgtgcctgttttgcaccagcagccgcccggaagatcgcccggatatgaacgaaattctg
 +
acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat
 +
cgcgaagtg
-
Vous avez probablement quelque chose d'approchant dans votre alignement, traduisant que :<br>
 
-
:Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement <br>
+
'''
-
:x(3) : 3 colonnes avec des acides aminés variables <br>
+
Répondez aux questions suivantes:'''
-
:[FY] : dans cette colonne seuls les acides aminés F ou Y sont présents <br>
+
* a quel organisme appartient cette séquence ?
-
:x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences <br>
+
* cette séquence est-elle codante ?
 +
* quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ?
 +
* existe-il des orthologues a cette protéine ?
 +
* que veut dire db_xref=CDD:173623 sur la fiche GenPept?
 +
* quelle est la fonction putative de cette protéine ?
 +
* exite-t-il des domaines conservés dans cette protéine?
-
*Tester votre signature sur [http://prosite.expasy.org/scanprosite/ '''ScanProsite'''] (choisir l'option 2) contre SwissProt ou trEMBL (plus long !) : les séquences obtenues appartiennent-elles à la famille des BCL2 ou BCL2-like ? Retrouvez-vous les mêmes organismes que précédemment ? en avez-vous d'autres ? <br>
+
<!--
 +
Sauvegardez la séquence de l'ARNm et du gène au format fasta
 +
 +
* sans tenir compte des informations disponibles dans la fiche GenPept, identifiez le nombre d'introns/exons dans le gène codant cette protéine... peut etre par Dot Plot...
 +
-->

Revision as of 15:02, 3 December 2018

Contents

Objectifs

Ce TD a pour but d'apprendre a comparer des séquences deux a deux via différentes methodes (matrice de point, alignement global et local), à definir des signatures protéiques après utilisation d'alignement multiple, a mettre en application votre savoir-faire !

Quelques liens utiles:

Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot)

  • Rechercher les 2 séquences enregistrées sous les numéros d'accession P10415 et Q64373
  • Que pouvez vous dire sur ces 2 séquences ?
  • Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot).

Les logiciels sont disponibles dans la suite EMBOSS de la Genopole de Toulouse ou du centre de Bioinformatique des Pays Bas

Utiliser DOTPATH qui permet de dessiner un dotplot avec une taille de mot fixée et visualiser des diagonales 'd'identité'
Faites la même analyse avec DOTMATCHER en gardant les paramètres par défaut, et qui permet de visualiser des diagnonales de 'similarité'
Que pouvez-vous conclure ?

Exercice 2: Comparaison de 2 séquences par alignement global et local : Cas d'Ecole

Voici 2 séquences, au format FASTA :

>prot1

MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS

>prot2

MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI

  • Faites un dotplot de ces 2 séquences : qu'observez-vous ?
  • Faites un alignement global (de bout à bout) entre les 2 séquences avec Stretcher disponible sur EMBOSS
Qu'observez vous ?
Combien y a-t-il de gaps ? A quoi correspondent-ils ?
A quoi correspond le pourcentage de similarité ?
Quels sont les paramètres de calcul du score ?
Votre alignement est-il significatif ?
  • Faites un alignement local avec Matcher disponible sur EMBOSS.

NB: dans 'alternative matches' indiquez 10, de façon a visualiser 10 alignements locaux

Qu'observez-vous ?
Regardez les autres alignements locaux. Sont-il significatifs ?

NB: si vous avez besoin de convertir vos séquences au Format Fasta un petit outil bien utile  :ReadSeq

Exercice 3 : Comparaison de plusieurs séquences par alignement multiple

L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'en définir les liens évolutifs ou d'identifier des 'zones' (motifs/domaines) conservés pouvant décrire la famille protéique

  • Dans la banque de données UniProt/SwissProt au NCBI, identifiez les séquences protéiques "THAP" de l'homme, la souris, le poulet et le zebrafish. Eliminez les séquences isoformes 2 et 3.
  • Récupérez l'ensemble des séquences dans un fichier au format Fasta
  • Réalisez un alignement de l'ensemble des séquences (=alignement multiple) en utilisant Clustal Omega disponible a l'EBI (>Services)
  • Trouvez-vous des 'zones similaires' (=domaines) à l'ensemble de ces séquences.

NB : Le motif 'AVPTIF' marque une partie du domaine : le trouvez-vous sur toutes les séquences ?

Nous allons maintenant essayer de construire un pattern/signature caractéristique de cette famille de protéine en sebasant sur les 'zones similaires' préalablement identifiées

  • Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap)
   Voici l'exemple d'un début d'une signature (ou pattern) : Q-L-x(3)-P-x(6)-[FY]-x(2)-V-x(3)-[LVF]-[FGD]-x(2,8)-[GPS]

Comment lire cette signature ?

    Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement 
x(3) : 3 colonnes avec des acides aminés variables
[FY] : dans cette colonne seuls les acides aminés F ou Y sont présents
x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences
  • Tester la spécificité de votre signature sur ScanProsite (choisir l'option 2) contre SwissProt ou trEMBL (plus long !)

Mise en application...

Au laboratoire, vous êtes amenés a travailler sur la séquence ci-dessous:

>seq1

attggcaacctgaaagatctgaacattctgtatctgcatagcaacggctttaccggccgc attccgcgcgaaatgagcaacctgaccctggcgaacctgaccgatctggatctgagcggc aaccagctgaccggcaaaattccgcgcgattttgcggcgctgctgctggtgctgctggaa aaaaaaattgaaaacattacctgcgatagcatgaaactgctgagcaaaacctttctgatt ctgaccctgaccttttttttttttggcattgcgctggcgaaacagagctttgaaccggaa attgaagcgctgaaaagctttaaaaacggcattagcaacgatccgctgggcgtgctgagc gattggaccattattggcagcctgcgccattgcaactggaccggcattacctgcgatagc accggccatgtggtgagcgtgagcctgctggaaaaacagctggaaggcgtgctgagcccg gcgattgcgaacctgacctatctgcaggtgctggatctgaccagcaacagctttaccggc aaaattccggcggaaattggcaaactgaccgaactgaaccagctgattctgtatctgaac tattttagcggcagcattccgagcggcatttgggaactgaaaaacattttttatctggat ctgcgcaacaacctgctgagcggcgatgtgccggaagaaatttgcaaaaccagcagcctg gtgctgattggctttgattataacaacctgaccggcaaaattccggaatgcctgggcgat ctggtgcatctgcagatgtttgtggcggcgggcaaccatctgaccggcagcattccggtg agcattggcaccctggcgaacctgaccgatctggatctgagcggcaaccagctgaccggc aaaattccgcgcgattttggcaacctgctgaacctgcagagcctggtgctgaccgaaaac ctgctggaaggcgatattccggcggaaattggcaactgcagcagcctggtgcagctggaa ctgtatgataaccagctgaccggcaaaattccggcggaactgggcaacctggtgcagctg caggcgctgcgcatttataaaaacaaactgaccagcagcattccgagcagcctgtttcgc ctgacccagctgacccatctgggcctgagcgaaaaccatctggtgggcccgattagcgaa gaaattggctttctggaaagcctggaagtgctgaccctgcatagcaacaactttaccggc gaatttccgcagagcattaccaacctgcgcaacctgaccgtgctgaccgtgggctttaac aacattagcggcgaactgccggcggatctgggcctgctgaccaacctgcgcaacctgagc gcgcatgataacctgctgaccggcccgattccgagcagcattagcaactgcaccggcctg aaactgctggatctgagccataaccagatgaccggcgaaattccgcgcggctttggccgc atgaacctgacctttattagcattggccgcaaccattttaccggcgaaattccggatgat atttttaactgcagcaacctggaaaccctgagcgtggcggataacaacctgaccggcacc ctgaaaccgctgattggcaaactgcagaaactgcgcattctgcaggtgagctataacagc ctgaccggcccgattccgcgcgaaattggcaacctgaaagatctgaacattctgtatctg catagcaacggctttaccggccgcattccgcgcgaaatgagcaacctgaccctgctgcag ggcctgcgcatgtatagcaacgatctggaaggcccgattccggaagaaatgtttgatatg aaactgctgagcgtgctggatctgagcaacaacaaatttagcggccagattccggcgctg tttagcaaactggaaagcctgacctatctgagcctgcagggcaacaaatttaacggcagc attccggcgagcctgaaaagcctgagcctgctgaacacctttgatattagcgataacctg ctgaccggcaccattccgggcgaactgctggcgagcctgaaaaacatgcagctgtatctg aactttagcaacaacctgctgaccggcaccattccgaaagaactgggcaaactggaaatg gtgcaggaaattgatctgagcaacaacctgtttagcggcagcattccgcgcagcctgcag gcgtgcaaaaacgtgtttaccctggattttagccagaacaacctgagcggccatattccg gatgaagtgtttcagggcatggatatgattattagcctgaacctgagccgcaacagcttt agcggcgaaattccgcagagctttggcaacatgacccatctggtgagcctggatctgagc agcaacaacctgaccggcgaaattccggaaagcctggcgaacctgagcaccctgaaacat ctgaaactggcgagcaacaacctgaaaggccatgtgccggaaagcggcgtgtttaaaaac attaacgcgagcgatctgatgggcaacaccgatctgtgcggcagcaaaaaaccgctgaaa ccgtgcaccattaaacagaaaagcagccattttagcaaacgcacccgcgtgattctgatt attctgggcagcgcggcggcgctgctgctggtgctgctgctggtgctgattctgacctgc tgcaaaaaaaaagaaaaaaaaattgaaaacagcagcgaaagcagcctgccggatctggat agcgcgctgaaactgaaacgctttgaaccgaaagaactggaacaggcgaccgatagcttt aacagcgcgaacattattggcagcagcagcctgagcaccgtgtataaaggccagctggaa gatggcaccgtgattgcggtgaaagtgctgaacctgaaagaatttagcgcggaaagcgat aaatggttttataccgaagcgaaaaccctgagccagctgaaacatcgcaacctggtgaaa attctgggctttgcgtgggaaagcggcaaaaccaaagcgctggtgctgccgtttatggaa aacggcaacctggaagataccattcatggcagcgcggcgccgattggcagcctgctggaa aaaattgatctgtgcgtgcatattgcgagcggcattgattatctgcatagcggctatggc tttccgattgtgcattgcgatctgaaaccggcgaacattctgctggatagcgatcgcgtg gcgcatgtgagcgattttggcaccgcgcgcattctgggctttcgcgaagatggcagcacc accgcgagcaccagcgcgtttgaaggcaccattggctatctggcgccggaatttgcgtat atgcgcaaagtgaccaccaaagcggatgtgtttagctttggcattattatgatggaactg atgaccaaacagcgcccgaccagcctgaacgatgaagatagccaggatatgaccctgcgc cagctggtggaaaaaagcattggcaacggccgcaaaggcatggtgcgcgtgctggatatg gaactgggcgatagcattgtgagcctgaaacaggaagaagcgattgaagattttctgaaa ctgtgcctgttttgcaccagcagccgcccggaagatcgcccggatatgaacgaaattctg acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat cgcgaagtg


Répondez aux questions suivantes:

  • a quel organisme appartient cette séquence ?
  • cette séquence est-elle codante ?
  • quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ?
  • existe-il des orthologues a cette protéine ?
  • que veut dire db_xref=CDD:173623 sur la fiche GenPept?
  • quelle est la fonction putative de cette protéine ?
  • exite-t-il des domaines conservés dans cette protéine?