TD2 Genome Selection Plantes
From silico.biotoul.fr
== RAPPEL / Controle Continu, Mercedi 13 Decembre 13h30 en U1 MATHIS ==
Objectifs
Ce TD a pour but d'apprendre a comparer des séquences deux a deux via différentes methodes (matrice de point, alignement global et local), à definir des signatures protéqiues après utilisation d'alignement multiple, a mettre en application votre savoir-faire !
CONTROLE CONTINU MERCREDI 13 DECEMBRE 13h30-15h30 en U1 MATHIS
Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot)
- Rechercher les 2 séquences enregistrées sous les numéros d'accession P10415 et Q64373
- Que pouvez vous dire sur ces 2 séquences ?
- Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot).
Les logiciels sont disponibles dans la suite EMBOSS de la Genopole de Toulouse ou du centre de Bioinformatique des Pays Bas
- Utiliser DOTPATH qui permet de dessiner un dotplot avec une taille de mot fixée.
- Que pouvez-vous conclure ?
Exercice 2: Comparaison de 2 séquences par alignement global et local : Cas d'Ecole
Voici 2 séquences, au format FASTA :
>prot1
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS
>prot2
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI
- Faites un dotplot de ces 2 séquences : qu'observez-vous ?
- Faites un alignement global (de bout à bout) entre les 2 séquences avec Stretcher disponible sur EMBOSS
- Qu'observez vous ?
- Combien y a-t-il de gaps ? A quoi correspondent-ils ?
- A quoi correspond le pourcentage de similarité ?
- Quels sont les paramètres de calcul du score ?
- Votre alignement est-il significatif ?
- Faites un alignement local avec Matcher disponible sur EMBOSS.
NB: dans 'alternative matches' indiquez 10, de façon a visualiser 10 alignements locaux
- Qu'observez-vous ?
- Regardez les autres alignements locaux. Sont-il significatifs ?
NB: si vous avez besoin de convertir vos séquences au Format Fasta un petit outil bien utile :ReadSeq
Exercice 3 : Comparaison de plusieurs séquences par alignement multiple
L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'en définir les liens évolutifs ou d'identifier des 'zones' (motifs/domaines) conservés pouvant décrire la famille protéique
- Dans la banque de données UniProt/SwissProt, identifiez les séquences protéiques "THAP" de l'homme, la souris, le poulet et le zebrafish. Eliminez les séquences isoformes 2 et 3.
- Récupérez l'ensemble des séquences dans un fichier au format Fasta
- Réalisez un alignement de l'ensemble des séquences (=alignement multiple) en utilisant Clustal Omega disponible a l'EBI (>Services)
- Trouvez-vous des 'zones similaires' (=domaines) à l'ensemble de ces séquences.
NB : Le motif 'AVPTIF' marque la fin du domaine : le trouvez-vous sur toutes les séquences ?
Nous allons maintenant essayer de construire un pattern/signature caractéristique de cette famille de protéine en sebasant sur les 'zones similaires' préalablement identifiées
- Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap)
Voici l'exemple d'un début d'une signature (ou pattern) : Q-L-x(3)-P-x(6)-[FY]-x(2)-V-x(3)-[LVF]-[FGD]-x(2,8)-[GPS]
Comment lire cette signature ?
-Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement
-x(3) : 3 colonnes avec des acides aminés variables
-[FY] : dans cette colonne seuls les acides aminés F ou Y sont présents
- x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences
- Tester la spécificité de votre signature sur ScanProsite (choisir l'option 2) contre SwissProt ou trEMBL (plus long !)
Mise en application...
Au laboratoire, vous êtes amenés a travailler sur la séquence ci-dessous:
>seq1
attggcaacctgaaagatctgaacattctgtatctgcatagcaacggctttaccggccgc attccgcgcgaaatgagcaacctgaccctggcgaacctgaccgatctggatctgagcggc aaccagctgaccggcaaaattccgcgcgattttgcggcgctgctgctggtgctgctggaa aaaaaaattgaaaacattacctgcgatagcatgaaactgctgagcaaaacctttctgatt ctgaccctgaccttttttttttttggcattgcgctggcgaaacagagctttgaaccggaa attgaagcgctgaaaagctttaaaaacggcattagcaacgatccgctgggcgtgctgagc gattggaccattattggcagcctgcgccattgcaactggaccggcattacctgcgatagc accggccatgtggtgagcgtgagcctgctggaaaaacagctggaaggcgtgctgagcccg gcgattgcgaacctgacctatctgcaggtgctggatctgaccagcaacagctttaccggc aaaattccggcggaaattggcaaactgaccgaactgaaccagctgattctgtatctgaac tattttagcggcagcattccgagcggcatttgggaactgaaaaacattttttatctggat ctgcgcaacaacctgctgagcggcgatgtgccggaagaaatttgcaaaaccagcagcctg gtgctgattggctttgattataacaacctgaccggcaaaattccggaatgcctgggcgat ctggtgcatctgcagatgtttgtggcggcgggcaaccatctgaccggcagcattccggtg agcattggcaccctggcgaacctgaccgatctggatctgagcggcaaccagctgaccggc aaaattccgcgcgattttggcaacctgctgaacctgcagagcctggtgctgaccgaaaac ctgctggaaggcgatattccggcggaaattggcaactgcagcagcctggtgcagctggaa ctgtatgataaccagctgaccggcaaaattccggcggaactgggcaacctggtgcagctg caggcgctgcgcatttataaaaacaaactgaccagcagcattccgagcagcctgtttcgc ctgacccagctgacccatctgggcctgagcgaaaaccatctggtgggcccgattagcgaa gaaattggctttctggaaagcctggaagtgctgaccctgcatagcaacaactttaccggc gaatttccgcagagcattaccaacctgcgcaacctgaccgtgctgaccgtgggctttaac aacattagcggcgaactgccggcggatctgggcctgctgaccaacctgcgcaacctgagc gcgcatgataacctgctgaccggcccgattccgagcagcattagcaactgcaccggcctg aaactgctggatctgagccataaccagatgaccggcgaaattccgcgcggctttggccgc atgaacctgacctttattagcattggccgcaaccattttaccggcgaaattccggatgat atttttaactgcagcaacctggaaaccctgagcgtggcggataacaacctgaccggcacc ctgaaaccgctgattggcaaactgcagaaactgcgcattctgcaggtgagctataacagc ctgaccggcccgattccgcgcgaaattggcaacctgaaagatctgaacattctgtatctg catagcaacggctttaccggccgcattccgcgcgaaatgagcaacctgaccctgctgcag ggcctgcgcatgtatagcaacgatctggaaggcccgattccggaagaaatgtttgatatg aaactgctgagcgtgctggatctgagcaacaacaaatttagcggccagattccggcgctg tttagcaaactggaaagcctgacctatctgagcctgcagggcaacaaatttaacggcagc attccggcgagcctgaaaagcctgagcctgctgaacacctttgatattagcgataacctg ctgaccggcaccattccgggcgaactgctggcgagcctgaaaaacatgcagctgtatctg aactttagcaacaacctgctgaccggcaccattccgaaagaactgggcaaactggaaatg gtgcaggaaattgatctgagcaacaacctgtttagcggcagcattccgcgcagcctgcag gcgtgcaaaaacgtgtttaccctggattttagccagaacaacctgagcggccatattccg gatgaagtgtttcagggcatggatatgattattagcctgaacctgagccgcaacagcttt agcggcgaaattccgcagagctttggcaacatgacccatctggtgagcctggatctgagc agcaacaacctgaccggcgaaattccggaaagcctggcgaacctgagcaccctgaaacat ctgaaactggcgagcaacaacctgaaaggccatgtgccggaaagcggcgtgtttaaaaac attaacgcgagcgatctgatgggcaacaccgatctgtgcggcagcaaaaaaccgctgaaa ccgtgcaccattaaacagaaaagcagccattttagcaaacgcacccgcgtgattctgatt attctgggcagcgcggcggcgctgctgctggtgctgctgctggtgctgattctgacctgc tgcaaaaaaaaagaaaaaaaaattgaaaacagcagcgaaagcagcctgccggatctggat agcgcgctgaaactgaaacgctttgaaccgaaagaactggaacaggcgaccgatagcttt aacagcgcgaacattattggcagcagcagcctgagcaccgtgtataaaggccagctggaa gatggcaccgtgattgcggtgaaagtgctgaacctgaaagaatttagcgcggaaagcgat aaatggttttataccgaagcgaaaaccctgagccagctgaaacatcgcaacctggtgaaa attctgggctttgcgtgggaaagcggcaaaaccaaagcgctggtgctgccgtttatggaa aacggcaacctggaagataccattcatggcagcgcggcgccgattggcagcctgctggaa aaaattgatctgtgcgtgcatattgcgagcggcattgattatctgcatagcggctatggc tttccgattgtgcattgcgatctgaaaccggcgaacattctgctggatagcgatcgcgtg gcgcatgtgagcgattttggcaccgcgcgcattctgggctttcgcgaagatggcagcacc accgcgagcaccagcgcgtttgaaggcaccattggctatctggcgccggaatttgcgtat atgcgcaaagtgaccaccaaagcggatgtgtttagctttggcattattatgatggaactg atgaccaaacagcgcccgaccagcctgaacgatgaagatagccaggatatgaccctgcgc cagctggtggaaaaaagcattggcaacggccgcaaaggcatggtgcgcgtgctggatatg gaactgggcgatagcattgtgagcctgaaacaggaagaagcgattgaagattttctgaaa ctgtgcctgttttgcaccagcagccgcccggaagatcgcccggatatgaacgaaattctg acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat cgcgaagtg Répondez aux questions suivantes:
- a quel organisme appartient cette séquence ?
- cette séquence est-elle codante ?
- quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ?
- existe-il des orthologues a cette protéine ?
- que veut dire db_xref=CDD:173623 sur la fiche GenPept?
- quelle est la fonction putative de cette protéine ?
- exite-t-il des domaines conservés dans cette protéine?
Sauvegardez la séquence de l'ARNm et du gène au format fasta
- sans tenir compte des informations disponibles dans la fiche GenPept, identifiez le nombre d'introns/exons dans le gène codant cette protéine... peut etre par Dot Plot...