TD2 Genome Selection Plantes
From silico.biotoul.fr
(→Objectifs) |
(→Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot)) |
||
(55 intermediate revisions not shown) | |||
Line 1: | Line 1: | ||
- | |||
- | |||
- | |||
''' | ''' | ||
==Objectifs== | ==Objectifs== | ||
- | Ce TD a pour but d'apprendre a comparer des séquences deux a deux via différentes methodes (matrice de point, alignement global et local), à definir des signatures | + | Ce TD a pour but d'apprendre a comparer des séquences deux a deux via différentes methodes (matrice de point, alignement global et local), à definir des signatures protéiques après utilisation d'alignement multiple, a mettre en application votre savoir-faire ! |
+ | |||
+ | Quelques liens utiles: | ||
+ | *[https://www.ncbi.nlm.nih.gov/ NCBI] | ||
+ | |||
+ | *[http://www.ebi.ac.uk/ EBI - European Bioinformatics Institute] | ||
== Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot) == | == Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot) == | ||
Line 13: | Line 15: | ||
* Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot). | * Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot). | ||
Les logiciels sont disponibles dans la suite EMBOSS [http://bioinfo.genotoul.fr/ de la Genopole de Toulouse] ou du centre de [http://www.bioinformatics.nl/emboss-explorer/ Bioinformatique des Pays Bas] | Les logiciels sont disponibles dans la suite EMBOSS [http://bioinfo.genotoul.fr/ de la Genopole de Toulouse] ou du centre de [http://www.bioinformatics.nl/emboss-explorer/ Bioinformatique des Pays Bas] | ||
- | :Utiliser '''DOTPATH''' qui permet de dessiner un '''dotplot''' avec une taille de mot fixée | + | :Utiliser '''DOTPATH''' qui permet de dessiner un '''dotplot''' avec une taille de mot fixée et visualiser des diagonales 'd'identité' |
+ | :Faites la même analyse avec '''DOTMATCHER''' en gardant les paramètres par défaut, et qui permet de visualiser des diagnonales de 'similarité' | ||
:Que pouvez-vous conclure ? | :Que pouvez-vous conclure ? | ||
- | == Exercice 2: Comparaison de 2 séquences par alignement global et local == | + | == Exercice 2: Comparaison de 2 séquences par alignement global et local : Cas d'Ecole== |
+ | |||
+ | Voici 2 séquences, au format FASTA : | ||
+ | |||
+ | >prot1 | ||
- | + | MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS | |
+ | |||
+ | >prot2 | ||
+ | |||
+ | MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI | ||
+ | |||
+ | *Faites un dotplot de ces 2 séquences : qu'observez-vous ? | ||
* Faites un alignement '''global''' (de bout à bout) entre les 2 séquences avec '''Stretcher''' disponible sur EMBOSS | * Faites un alignement '''global''' (de bout à bout) entre les 2 séquences avec '''Stretcher''' disponible sur EMBOSS | ||
Line 27: | Line 40: | ||
:Votre alignement est-il significatif ? | :Votre alignement est-il significatif ? | ||
- | * Faites un alignement local avec '''Matcher''' disponible sur EMBOSS | + | * Faites un alignement local avec '''Matcher''' disponible sur EMBOSS. |
+ | '''''NB:''' dans 'alternative matches' indiquez 10, de façon a visualiser 10 alignements locaux'' | ||
:Qu'observez-vous ? <br/> | :Qu'observez-vous ? <br/> | ||
- | : | + | :Regardez les autres alignements locaux. Sont-il significatifs ? <br/> |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | '''''NB''': si vous avez besoin de convertir vos séquences au Format Fasta un petit outil bien utile :[https://www-bimas.cit.nih.gov/cgi-bin/molbio/sequence_conversion ReadSeq]'' | |
- | + | == Exercice 3 : Comparaison de plusieurs séquences par alignement multiple == | |
- | + | ||
- | + | ||
- | + | ||
- | + | L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'en définir les liens évolutifs ou d'identifier des 'zones' (motifs/domaines) conservés pouvant décrire la famille protéique | |
- | * | + | * Dans la banque de données UniProt/SwissProt au NCBI, identifiez les séquences protéiques "THAP" de l'homme, la souris, le poulet et le zebrafish. Eliminez les séquences isoformes 2 et 3. |
+ | * Récupérez l'ensemble des séquences dans un fichier au format Fasta | ||
+ | * Réalisez un alignement de l'ensemble des séquences (=alignement multiple) en utilisant Clustal Omega disponible a [https://www.ebi.ac.uk/ l'EBI] (>Services) | ||
+ | * Trouvez-vous des 'zones similaires' (=domaines) à l'ensemble de ces séquences. | ||
+ | '''''NB : Le motif 'AVPTIF' marque une partie du domaine : le trouvez-vous sur toutes les séquences ?''''' | ||
- | + | Nous allons maintenant essayer de construire un pattern/signature caractéristique de cette famille de protéine en sebasant sur les 'zones similaires' préalablement identifiées | |
*Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap) | *Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap) | ||
- | + | Voici l'exemple d'un début d'une signature (ou ''pattern'') : '''Q-L-x(3)-P-x(6)-[FY]-x(2)-V-x(3)-[LVF]-[FGD]-x(2,8)-[GPS]''' | |
- | + | Comment lire cette signature ? <br> | |
- | + | Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement <br> | |
- | + | x(3) : 3 colonnes avec des acides aminés variables <br> | |
- | + | [FY] : dans cette colonne seuls les acides aminés F ou Y sont présents <br> | |
- | + | x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences <br> | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
+ | *Tester la spécificité de votre signature sur [http://prosite.expasy.org/scanprosite/ '''ScanProsite'''] (choisir l'option 2) contre SwissProt ou trEMBL (plus long !) <br> | ||
= Mise en application...= | = Mise en application...= | ||
Line 169: | Line 160: | ||
acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat | acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat | ||
cgcgaagtg | cgcgaagtg | ||
+ | |||
+ | |||
''' | ''' | ||
Répondez aux questions suivantes:''' | Répondez aux questions suivantes:''' | ||
Line 179: | Line 172: | ||
* exite-t-il des domaines conservés dans cette protéine? | * exite-t-il des domaines conservés dans cette protéine? | ||
+ | <!-- | ||
Sauvegardez la séquence de l'ARNm et du gène au format fasta | Sauvegardez la séquence de l'ARNm et du gène au format fasta | ||
* sans tenir compte des informations disponibles dans la fiche GenPept, identifiez le nombre d'introns/exons dans le gène codant cette protéine... peut etre par Dot Plot... | * sans tenir compte des informations disponibles dans la fiche GenPept, identifiez le nombre d'introns/exons dans le gène codant cette protéine... peut etre par Dot Plot... | ||
+ | --> |
Revision as of 15:02, 3 December 2018
Contents |
Objectifs
Ce TD a pour but d'apprendre a comparer des séquences deux a deux via différentes methodes (matrice de point, alignement global et local), à definir des signatures protéiques après utilisation d'alignement multiple, a mettre en application votre savoir-faire !
Quelques liens utiles:
Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot)
- Rechercher les 2 séquences enregistrées sous les numéros d'accession P10415 et Q64373
- Que pouvez vous dire sur ces 2 séquences ?
- Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot).
Les logiciels sont disponibles dans la suite EMBOSS de la Genopole de Toulouse ou du centre de Bioinformatique des Pays Bas
- Utiliser DOTPATH qui permet de dessiner un dotplot avec une taille de mot fixée et visualiser des diagonales 'd'identité'
- Faites la même analyse avec DOTMATCHER en gardant les paramètres par défaut, et qui permet de visualiser des diagnonales de 'similarité'
- Que pouvez-vous conclure ?
Exercice 2: Comparaison de 2 séquences par alignement global et local : Cas d'Ecole
Voici 2 séquences, au format FASTA :
>prot1
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS
>prot2
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI
- Faites un dotplot de ces 2 séquences : qu'observez-vous ?
- Faites un alignement global (de bout à bout) entre les 2 séquences avec Stretcher disponible sur EMBOSS
- Qu'observez vous ?
- Combien y a-t-il de gaps ? A quoi correspondent-ils ?
- A quoi correspond le pourcentage de similarité ?
- Quels sont les paramètres de calcul du score ?
- Votre alignement est-il significatif ?
- Faites un alignement local avec Matcher disponible sur EMBOSS.
NB: dans 'alternative matches' indiquez 10, de façon a visualiser 10 alignements locaux
- Qu'observez-vous ?
- Regardez les autres alignements locaux. Sont-il significatifs ?
NB: si vous avez besoin de convertir vos séquences au Format Fasta un petit outil bien utile :ReadSeq
Exercice 3 : Comparaison de plusieurs séquences par alignement multiple
L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'en définir les liens évolutifs ou d'identifier des 'zones' (motifs/domaines) conservés pouvant décrire la famille protéique
- Dans la banque de données UniProt/SwissProt au NCBI, identifiez les séquences protéiques "THAP" de l'homme, la souris, le poulet et le zebrafish. Eliminez les séquences isoformes 2 et 3.
- Récupérez l'ensemble des séquences dans un fichier au format Fasta
- Réalisez un alignement de l'ensemble des séquences (=alignement multiple) en utilisant Clustal Omega disponible a l'EBI (>Services)
- Trouvez-vous des 'zones similaires' (=domaines) à l'ensemble de ces séquences.
NB : Le motif 'AVPTIF' marque une partie du domaine : le trouvez-vous sur toutes les séquences ?
Nous allons maintenant essayer de construire un pattern/signature caractéristique de cette famille de protéine en sebasant sur les 'zones similaires' préalablement identifiées
- Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap)
Voici l'exemple d'un début d'une signature (ou pattern) : Q-L-x(3)-P-x(6)-[FY]-x(2)-V-x(3)-[LVF]-[FGD]-x(2,8)-[GPS]
Comment lire cette signature ?
Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement
x(3) : 3 colonnes avec des acides aminés variables
[FY] : dans cette colonne seuls les acides aminés F ou Y sont présents
x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences
- Tester la spécificité de votre signature sur ScanProsite (choisir l'option 2) contre SwissProt ou trEMBL (plus long !)
Mise en application...
Au laboratoire, vous êtes amenés a travailler sur la séquence ci-dessous:
>seq1
attggcaacctgaaagatctgaacattctgtatctgcatagcaacggctttaccggccgc attccgcgcgaaatgagcaacctgaccctggcgaacctgaccgatctggatctgagcggc aaccagctgaccggcaaaattccgcgcgattttgcggcgctgctgctggtgctgctggaa aaaaaaattgaaaacattacctgcgatagcatgaaactgctgagcaaaacctttctgatt ctgaccctgaccttttttttttttggcattgcgctggcgaaacagagctttgaaccggaa attgaagcgctgaaaagctttaaaaacggcattagcaacgatccgctgggcgtgctgagc gattggaccattattggcagcctgcgccattgcaactggaccggcattacctgcgatagc accggccatgtggtgagcgtgagcctgctggaaaaacagctggaaggcgtgctgagcccg gcgattgcgaacctgacctatctgcaggtgctggatctgaccagcaacagctttaccggc aaaattccggcggaaattggcaaactgaccgaactgaaccagctgattctgtatctgaac tattttagcggcagcattccgagcggcatttgggaactgaaaaacattttttatctggat ctgcgcaacaacctgctgagcggcgatgtgccggaagaaatttgcaaaaccagcagcctg gtgctgattggctttgattataacaacctgaccggcaaaattccggaatgcctgggcgat ctggtgcatctgcagatgtttgtggcggcgggcaaccatctgaccggcagcattccggtg agcattggcaccctggcgaacctgaccgatctggatctgagcggcaaccagctgaccggc aaaattccgcgcgattttggcaacctgctgaacctgcagagcctggtgctgaccgaaaac ctgctggaaggcgatattccggcggaaattggcaactgcagcagcctggtgcagctggaa ctgtatgataaccagctgaccggcaaaattccggcggaactgggcaacctggtgcagctg caggcgctgcgcatttataaaaacaaactgaccagcagcattccgagcagcctgtttcgc ctgacccagctgacccatctgggcctgagcgaaaaccatctggtgggcccgattagcgaa gaaattggctttctggaaagcctggaagtgctgaccctgcatagcaacaactttaccggc gaatttccgcagagcattaccaacctgcgcaacctgaccgtgctgaccgtgggctttaac aacattagcggcgaactgccggcggatctgggcctgctgaccaacctgcgcaacctgagc gcgcatgataacctgctgaccggcccgattccgagcagcattagcaactgcaccggcctg aaactgctggatctgagccataaccagatgaccggcgaaattccgcgcggctttggccgc atgaacctgacctttattagcattggccgcaaccattttaccggcgaaattccggatgat atttttaactgcagcaacctggaaaccctgagcgtggcggataacaacctgaccggcacc ctgaaaccgctgattggcaaactgcagaaactgcgcattctgcaggtgagctataacagc ctgaccggcccgattccgcgcgaaattggcaacctgaaagatctgaacattctgtatctg catagcaacggctttaccggccgcattccgcgcgaaatgagcaacctgaccctgctgcag ggcctgcgcatgtatagcaacgatctggaaggcccgattccggaagaaatgtttgatatg aaactgctgagcgtgctggatctgagcaacaacaaatttagcggccagattccggcgctg tttagcaaactggaaagcctgacctatctgagcctgcagggcaacaaatttaacggcagc attccggcgagcctgaaaagcctgagcctgctgaacacctttgatattagcgataacctg ctgaccggcaccattccgggcgaactgctggcgagcctgaaaaacatgcagctgtatctg aactttagcaacaacctgctgaccggcaccattccgaaagaactgggcaaactggaaatg gtgcaggaaattgatctgagcaacaacctgtttagcggcagcattccgcgcagcctgcag gcgtgcaaaaacgtgtttaccctggattttagccagaacaacctgagcggccatattccg gatgaagtgtttcagggcatggatatgattattagcctgaacctgagccgcaacagcttt agcggcgaaattccgcagagctttggcaacatgacccatctggtgagcctggatctgagc agcaacaacctgaccggcgaaattccggaaagcctggcgaacctgagcaccctgaaacat ctgaaactggcgagcaacaacctgaaaggccatgtgccggaaagcggcgtgtttaaaaac attaacgcgagcgatctgatgggcaacaccgatctgtgcggcagcaaaaaaccgctgaaa ccgtgcaccattaaacagaaaagcagccattttagcaaacgcacccgcgtgattctgatt attctgggcagcgcggcggcgctgctgctggtgctgctgctggtgctgattctgacctgc tgcaaaaaaaaagaaaaaaaaattgaaaacagcagcgaaagcagcctgccggatctggat agcgcgctgaaactgaaacgctttgaaccgaaagaactggaacaggcgaccgatagcttt aacagcgcgaacattattggcagcagcagcctgagcaccgtgtataaaggccagctggaa gatggcaccgtgattgcggtgaaagtgctgaacctgaaagaatttagcgcggaaagcgat aaatggttttataccgaagcgaaaaccctgagccagctgaaacatcgcaacctggtgaaa attctgggctttgcgtgggaaagcggcaaaaccaaagcgctggtgctgccgtttatggaa aacggcaacctggaagataccattcatggcagcgcggcgccgattggcagcctgctggaa aaaattgatctgtgcgtgcatattgcgagcggcattgattatctgcatagcggctatggc tttccgattgtgcattgcgatctgaaaccggcgaacattctgctggatagcgatcgcgtg gcgcatgtgagcgattttggcaccgcgcgcattctgggctttcgcgaagatggcagcacc accgcgagcaccagcgcgtttgaaggcaccattggctatctggcgccggaatttgcgtat atgcgcaaagtgaccaccaaagcggatgtgtttagctttggcattattatgatggaactg atgaccaaacagcgcccgaccagcctgaacgatgaagatagccaggatatgaccctgcgc cagctggtggaaaaaagcattggcaacggccgcaaaggcatggtgcgcgtgctggatatg gaactgggcgatagcattgtgagcctgaaacaggaagaagcgattgaagattttctgaaa ctgtgcctgttttgcaccagcagccgcccggaagatcgcccggatatgaacgaaattctg acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat cgcgaagtg
Répondez aux questions suivantes:
- a quel organisme appartient cette séquence ?
- cette séquence est-elle codante ?
- quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ?
- existe-il des orthologues a cette protéine ?
- que veut dire db_xref=CDD:173623 sur la fiche GenPept?
- quelle est la fonction putative de cette protéine ?
- exite-t-il des domaines conservés dans cette protéine?