TD2 Genome Selection Plantes
From silico.biotoul.fr
(→Exercice 3 : Comparaison de plusieurs séquences par alignement multiple) |
(→Exercice 3 : Comparaison de plusieurs séquences par alignement multiple) |
||
Line 59: | Line 59: | ||
*Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap) | *Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap) | ||
- | Pour vous aider, voici | + | Pour vous aider, voici l'exemple d'un début d'une signature (ou ''pattern'') : '''Q-L-x(3)-P-x(6)-[FY]-x(2)-V-x(3)-[LVF]-[FGD]-x(2,8)-[GPS]''' |
- | Vous avez probablement quelque chose d'approchant dans votre alignement, traduisant que :<br> | + | Vous avez probablement quelque chose d'approchant dans votre alignement, traduisant que :<br> |
+ | - Tous les éléments de l'expression sont séparés par des tirets. | ||
+ | - Le joker est la lettre X, à utiliser lorsque le nombre d'AA rencontrés dans une colonne dépasse 4. | ||
+ | - On peut préciser le nombre d'occurrences avec des parentheses X(5) : 5 X ou D(2,4) : 2 à 4 D. | ||
+ | - Le choix entre plusieurs acides aminés possibles se note avec des crochets [APC] (maximum 4 acides aminés, sinon utiliser X) | ||
+ | - L'exclusion d'un ou plusieurs acides aminés en une position se note entre accolades {DEV}. | ||
- | :Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement <br> | + | Pour vous aider, v:Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement <br> |
- | :x(3) : 3 colonnes avec des acides aminés variables <br> | + | Pour vous aider, v:x(3) : 3 colonnes avec des acides aminés variables <br> |
- | :[FY] : dans cette colonne seuls les acides aminés F ou Y sont présents <br> | + | Pour vous aider, v:[FY] : dans cette colonne seuls les acides aminés F ou Y sont présents <br> |
- | :x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences <br> | + | Pour vous aider, v:x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences <br> |
*Tester la spécificité de votre signature sur [http://prosite.expasy.org/scanprosite/ '''ScanProsite'''] (choisir l'option 2) contre SwissProt ou trEMBL (plus long !) <br> | *Tester la spécificité de votre signature sur [http://prosite.expasy.org/scanprosite/ '''ScanProsite'''] (choisir l'option 2) contre SwissProt ou trEMBL (plus long !) <br> |
Revision as of 14:56, 17 November 2017
== RAPPEL / Controle Continu, Mercedi 13 Decembre 13h30 en U1 MATHIS ==
Objectifs
Ce TD a pour but d'apprendre a comparer des séquences deux a deux via différentes methodes (matrice de point, alignement global et local), à definir des signatures protéqiues après utilisation d'alignement multiple, a mettre en application votre savoir-faire !
CONTROLE CONTINU MERCREDI 13 DECEMBRE 13h30-15h30 en U1 MATHIS
Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot)
- Rechercher les 2 séquences enregistrées sous les numéros d'accession P10415 et Q64373
- Que pouvez vous dire sur ces 2 séquences ?
- Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot).
Les logiciels sont disponibles dans la suite EMBOSS de la Genopole de Toulouse ou du centre de Bioinformatique des Pays Bas
- Utiliser DOTPATH qui permet de dessiner un dotplot avec une taille de mot fixée.
- Que pouvez-vous conclure ?
Exercice 2: Comparaison de 2 séquences par alignement global et local : Cas d'Ecole
Voici 2 séquences, au format FASTA :
>prot1
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS
>prot2
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI
- Faites un dotplot de ces 2 séquences : qu'observez-vous ?
- Faites un alignement global (de bout à bout) entre les 2 séquences avec Stretcher disponible sur EMBOSS
- Qu'observez vous ?
- Combien y a-t-il de gaps ? A quoi correspondent-ils ?
- A quoi correspond le pourcentage de similarité ?
- Quels sont les paramètres de calcul du score ?
- Votre alignement est-il significatif ?
- Faites un alignement local avec Matcher disponible sur EMBOSS.
NB: dans 'alternative matches' indiquez 10, de façon a visualiser 10 alignements locaux
- Qu'observez-vous ?
- Regardez les autres alignements locaux. Sont-il significatifs ?
NB: si vous avez besoin de convertir vos séquences au Format Fasta un petit outil bien utile :ReadSeq
Exercice 3 : Comparaison de plusieurs séquences par alignement multiple
L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'en définir les liens évolutifs ou d'identifier des 'zones' (motifs/domaines) conservés pouvant décrire la famille protéique
- Dans la banque de données UniProt/SwissProt, identifiez les séquences protéiques "THAP" de l'homme, la souris, le poulet et le zebrafish. Eliminez les séquences isoformes 2 et 3.
- Récupérez l'ensemble des séquences dans un fichier au format Fasta
- Réalisez un alignement de l'ensemble des séquences (=alignement multiple) en utilisant Clustal Omega disponible a l'EBI (>Services)
- Trouvez-vous des 'zones similaires' (=domaines) à l'ensemble de ces séquences.
NB : Le motif 'AVPTIF' marque la fin du domaine : le trouvez-vous sur toutes les séquences ?
Nous allons maintenant essayer de construire un pattern/signature caractéristique de cette famille de protéine en sebasant sur les 'zones similaires' préalablement identifiées
- Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap)
Pour vous aider, voici l'exemple d'un début d'une signature (ou pattern) : Q-L-x(3)-P-x(6)-[FY]-x(2)-V-x(3)-[LVF]-[FGD]-x(2,8)-[GPS]
Vous avez probablement quelque chose d'approchant dans votre alignement, traduisant que :
- Tous les éléments de l'expression sont séparés par des tirets. - Le joker est la lettre X, à utiliser lorsque le nombre d'AA rencontrés dans une colonne dépasse 4. - On peut préciser le nombre d'occurrences avec des parentheses X(5) : 5 X ou D(2,4) : 2 à 4 D. - Le choix entre plusieurs acides aminés possibles se note avec des crochets [APC] (maximum 4 acides aminés, sinon utiliser X) - L'exclusion d'un ou plusieurs acides aminés en une position se note entre accolades {DEV}.
Pour vous aider, v:Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement
Pour vous aider, v:x(3) : 3 colonnes avec des acides aminés variables
Pour vous aider, v:[FY] : dans cette colonne seuls les acides aminés F ou Y sont présents
Pour vous aider, v:x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences
- Tester la spécificité de votre signature sur ScanProsite (choisir l'option 2) contre SwissProt ou trEMBL (plus long !)
Mise en application...
Au laboratoire, vous êtes amenés a travailler sur la séquence ci-dessous:
>seq1
attggcaacctgaaagatctgaacattctgtatctgcatagcaacggctttaccggccgc attccgcgcgaaatgagcaacctgaccctggcgaacctgaccgatctggatctgagcggc aaccagctgaccggcaaaattccgcgcgattttgcggcgctgctgctggtgctgctggaa aaaaaaattgaaaacattacctgcgatagcatgaaactgctgagcaaaacctttctgatt ctgaccctgaccttttttttttttggcattgcgctggcgaaacagagctttgaaccggaa attgaagcgctgaaaagctttaaaaacggcattagcaacgatccgctgggcgtgctgagc gattggaccattattggcagcctgcgccattgcaactggaccggcattacctgcgatagc accggccatgtggtgagcgtgagcctgctggaaaaacagctggaaggcgtgctgagcccg gcgattgcgaacctgacctatctgcaggtgctggatctgaccagcaacagctttaccggc aaaattccggcggaaattggcaaactgaccgaactgaaccagctgattctgtatctgaac tattttagcggcagcattccgagcggcatttgggaactgaaaaacattttttatctggat ctgcgcaacaacctgctgagcggcgatgtgccggaagaaatttgcaaaaccagcagcctg gtgctgattggctttgattataacaacctgaccggcaaaattccggaatgcctgggcgat ctggtgcatctgcagatgtttgtggcggcgggcaaccatctgaccggcagcattccggtg agcattggcaccctggcgaacctgaccgatctggatctgagcggcaaccagctgaccggc aaaattccgcgcgattttggcaacctgctgaacctgcagagcctggtgctgaccgaaaac ctgctggaaggcgatattccggcggaaattggcaactgcagcagcctggtgcagctggaa ctgtatgataaccagctgaccggcaaaattccggcggaactgggcaacctggtgcagctg caggcgctgcgcatttataaaaacaaactgaccagcagcattccgagcagcctgtttcgc ctgacccagctgacccatctgggcctgagcgaaaaccatctggtgggcccgattagcgaa gaaattggctttctggaaagcctggaagtgctgaccctgcatagcaacaactttaccggc gaatttccgcagagcattaccaacctgcgcaacctgaccgtgctgaccgtgggctttaac aacattagcggcgaactgccggcggatctgggcctgctgaccaacctgcgcaacctgagc gcgcatgataacctgctgaccggcccgattccgagcagcattagcaactgcaccggcctg aaactgctggatctgagccataaccagatgaccggcgaaattccgcgcggctttggccgc atgaacctgacctttattagcattggccgcaaccattttaccggcgaaattccggatgat atttttaactgcagcaacctggaaaccctgagcgtggcggataacaacctgaccggcacc ctgaaaccgctgattggcaaactgcagaaactgcgcattctgcaggtgagctataacagc ctgaccggcccgattccgcgcgaaattggcaacctgaaagatctgaacattctgtatctg catagcaacggctttaccggccgcattccgcgcgaaatgagcaacctgaccctgctgcag ggcctgcgcatgtatagcaacgatctggaaggcccgattccggaagaaatgtttgatatg aaactgctgagcgtgctggatctgagcaacaacaaatttagcggccagattccggcgctg tttagcaaactggaaagcctgacctatctgagcctgcagggcaacaaatttaacggcagc attccggcgagcctgaaaagcctgagcctgctgaacacctttgatattagcgataacctg ctgaccggcaccattccgggcgaactgctggcgagcctgaaaaacatgcagctgtatctg aactttagcaacaacctgctgaccggcaccattccgaaagaactgggcaaactggaaatg gtgcaggaaattgatctgagcaacaacctgtttagcggcagcattccgcgcagcctgcag gcgtgcaaaaacgtgtttaccctggattttagccagaacaacctgagcggccatattccg gatgaagtgtttcagggcatggatatgattattagcctgaacctgagccgcaacagcttt agcggcgaaattccgcagagctttggcaacatgacccatctggtgagcctggatctgagc agcaacaacctgaccggcgaaattccggaaagcctggcgaacctgagcaccctgaaacat ctgaaactggcgagcaacaacctgaaaggccatgtgccggaaagcggcgtgtttaaaaac attaacgcgagcgatctgatgggcaacaccgatctgtgcggcagcaaaaaaccgctgaaa ccgtgcaccattaaacagaaaagcagccattttagcaaacgcacccgcgtgattctgatt attctgggcagcgcggcggcgctgctgctggtgctgctgctggtgctgattctgacctgc tgcaaaaaaaaagaaaaaaaaattgaaaacagcagcgaaagcagcctgccggatctggat agcgcgctgaaactgaaacgctttgaaccgaaagaactggaacaggcgaccgatagcttt aacagcgcgaacattattggcagcagcagcctgagcaccgtgtataaaggccagctggaa gatggcaccgtgattgcggtgaaagtgctgaacctgaaagaatttagcgcggaaagcgat aaatggttttataccgaagcgaaaaccctgagccagctgaaacatcgcaacctggtgaaa attctgggctttgcgtgggaaagcggcaaaaccaaagcgctggtgctgccgtttatggaa aacggcaacctggaagataccattcatggcagcgcggcgccgattggcagcctgctggaa aaaattgatctgtgcgtgcatattgcgagcggcattgattatctgcatagcggctatggc tttccgattgtgcattgcgatctgaaaccggcgaacattctgctggatagcgatcgcgtg gcgcatgtgagcgattttggcaccgcgcgcattctgggctttcgcgaagatggcagcacc accgcgagcaccagcgcgtttgaaggcaccattggctatctggcgccggaatttgcgtat atgcgcaaagtgaccaccaaagcggatgtgtttagctttggcattattatgatggaactg atgaccaaacagcgcccgaccagcctgaacgatgaagatagccaggatatgaccctgcgc cagctggtggaaaaaagcattggcaacggccgcaaaggcatggtgcgcgtgctggatatg gaactgggcgatagcattgtgagcctgaaacaggaagaagcgattgaagattttctgaaa ctgtgcctgttttgcaccagcagccgcccggaagatcgcccggatatgaacgaaattctg acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat cgcgaagtg Répondez aux questions suivantes:
- a quel organisme appartient cette séquence ?
- cette séquence est-elle codante ?
- quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ?
- existe-il des orthologues a cette protéine ?
- que veut dire db_xref=CDD:173623 sur la fiche GenPept?
- quelle est la fonction putative de cette protéine ?
- exite-t-il des domaines conservés dans cette protéine?
Sauvegardez la séquence de l'ARNm et du gène au format fasta
- sans tenir compte des informations disponibles dans la fiche GenPept, identifiez le nombre d'introns/exons dans le gène codant cette protéine... peut etre par Dot Plot...