silico.biotoul.fr
 

Analyse de séquences II: alignements multiples et profils

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(Alignement local et alignement global)
 
(20 intermediate revisions not shown)
Line 1: Line 1:
 +
* [http://genopole-toulouse.prd.fr/ Génopôle Toulouse]
 +
* [http://www.ebi.ac.uk/ EBI] European Bioinformatics Institute (EMBL, GB)
 +
* [http://www.ncbi.nlm.nih.gov/ NCBI] National Center for Biotechnology Information (NIH, USA)
 +
* [http://www.expasy.org/ Expasy] Expert Protein Analysis System (Swiss Institute of Bioinformatics, Suisse)
 +
* [http://pbil.univ-lyon1.fr/ PBIL] Pôle Bio-Informatique Lyonnais (CNRS, Lyon)
 +
* [http://bioweb.pasteur.fr/ Institut Pasteur]
 +
* [http://emboss.toulouse.inra.fr/ EMBOSS]
 +
 +
 +
<!--
 +
= Controle Continu 2 =
 +
 +
>SeqInconnue 
 +
 +
ATTTCCGAATATGCTGACTTTGTTCTGTGTCGTTGTTGGTGAGGGAAGAC
 +
CTTTCTCCATCGACATTGATGTTGGAAAGACCGTCGATCATCTCAAGAAG
 +
AAGATCAAGGAAGAGAACAAGAACACAATTTCTTGTGATGCGAAGGATCT
 +
CCAGCTTTATCTGGCTTTGAAGGGTGGTTTACAGTTAAAGGATGGTGCGT
 +
GGCTGTCTGACGAAGACCCTGATTTGGAAGGCCTTTCTCAACCCGCTGAA
 +
GGAAACACAGTGTTACCAAAGTATGTCAATGAAGAAAGAAAGATGAGAGA
 +
AACCAAGAAGCTTTCCAACTACTTTTCTGGTGGTGAAGATTACCCTGAAT
 +
ATTGCGACGAAAAAATTCATGTGGTGGTGATTGTTCCAGAAGTTCCTTTG
 +
TTGAAGGTGACCGCTCTAGAACCCTCAGTGCCAGTGCATCCCAGTGTTGA
 +
CAGGAAGAGGCGATTTGATGAATTGAATCAAATCCTATCACAAGCTGAAA
 +
TTGACGCATCAAATGATTCAAACAAGAAGCCAAAGAAATCTTCGAATTTT
 +
TCTTCAATCAAATGGGAATTGGTCGCACCCTTGTTTAGCCGCGTTATGTC
 +
GGCATATGAACAAGAAGAAAAAGCCATTCCGCGTGAAATTCTGCAAGAAC
 +
TCCAGGATTACTCTGCCCGTGCGTTCACATGTTTCGAGCTGTCCAGTTGT
 +
TCGGAGGCCACTCTCAACATCTTTATTGCCCCAGTGCTGGTCCAAGTATG
 +
TGCATTATTTAACGGTGACATCAAAATCTTTGGAAAAGAAACTCTGAAAG
 +
GGAAATATGTGAAGGCAAATGGTCGTTTTGAATTTGTATTGAGGAGAGGA
 +
CTGAAGAGCATTTTCATTGTTGAAGCGAAGAAAGAGGATTTCGATCAAGG
 +
TGCTGCGCAAGAATTGGTTGGGGCGGAAGTTGCGGCTGAGTTGGGAAGTT
 +
TGAATGTTGTTTATGGGATCGTGACAAACTTCAAGGAATGGGTGTTCTTC
 +
AAGAGCTCGAATACCAAAATTGAGAAAGATGCATCTTTCATGTATCATCC
 +
ACCCAAACCATATTCAATGGAAACAATGTTGGCGAAAGCGACTGCCAAAA
 +
TTTACGCCATACTTTTTGAATAACAATTTTATCAATTGTTGGCTCAGTGG
 +
GTAAACAGCTAATTCATTCATCGGTCGTGTTTTTTTGCTTGAAAAAAAAA
 +
AAAAAAAAAAAAAAAAAAAAA
 +
-->
 +
 +
 +
 +
<!--
= Analyse de la famille protéique =
= Analyse de la famille protéique =
== Recherche dans les banques par similitude de séquences ==
== Recherche dans les banques par similitude de séquences ==
-
*Utiliser votre protéine (P10415) comme sonde pour une recherche avec le logiciel BlastP sur le site du [http://www.ncbi.nlm.nih.gov/ NCBI], en choisissant soit la banque nr, soit la banque SwissProt.  
+
*Utiliser la protéine humaine (P10415)du TD2, comme sonde pour une recherche avec le logiciel BlastP sur le site du [http://www.ncbi.nlm.nih.gov/ NCBI], en choisissant soit la banque nr, soit la banque SwissProt.  
Différence entre les deux résultats?  
Différence entre les deux résultats?  
Les résultats du programme Blast vous ont montré que votre séquence appartenait à une famille bien représentée dans les banques de données. Vous disposez donc d'un ensemble de séquences qui vont vous permettre de faire une analyse plus approfondie.
Les résultats du programme Blast vous ont montré que votre séquence appartenait à une famille bien représentée dans les banques de données. Vous disposez donc d'un ensemble de séquences qui vont vous permettre de faire une analyse plus approfondie.
Dans un premier temps, on va comparer P10415, avec l'orthologue de BCL2 présent chez la souris, et identifié dans votre analyse Blast sur la swissprot. Dans un second temps, nous réaliserons un aligement multiple avec les l'ensemble du jeu de séquences identifié suite a l'analyse Blast notamment pour rechercher la présence de régions conservées dans ces séquences, qui pourront être des sites privilégiés pour des expériences de mutagénèse dirigée.
Dans un premier temps, on va comparer P10415, avec l'orthologue de BCL2 présent chez la souris, et identifié dans votre analyse Blast sur la swissprot. Dans un second temps, nous réaliserons un aligement multiple avec les l'ensemble du jeu de séquences identifié suite a l'analyse Blast notamment pour rechercher la présence de régions conservées dans ces séquences, qui pourront être des sites privilégiés pour des expériences de mutagénèse dirigée.
 +
-->
 +
 +
 +
== Comparaison de 2 séquences ==
 +
 +
Vous allez comparer deux séquences correspondant à deux facteurs de transcription krox 24 et sp1, contenus dans les fichiers [[Media:Krox24.seq|Krox24]] et [[Media:sp1.seq|sp1]].
 +
 +
En utilisant la suite [http://emboss.toulouse.inra.fr / EMBOSS]
 +
 +
* Construisez un dotplot avec dotmatcher de ces deux séquences.''Vous devez observer une similitude locale.'' <br/>
 +
* Comparez ensuite les deux séquences avec un alignement local en utilisant matcher (paramètres par défaut Gap penalty 14 et Gap length penalty. Retrouvez vous le résultat du dotplot? <br/>
 +
* Consultez les entrées SwissProt (Krox24 accession number P18146 et sp1 accession number P08047)pour déterminer à quoi correspond cette similitude locale. <br/>
 +
 +
Le dotplot peut également être utilisé pour étudier les régularités structurelles d'une séquence. Vous allez tester cette approche sur les deux exemples suivants.
 +
*Localisation de répétitions : analysez avec dotpath la séquence de rétrotransposon de tabac contenue dans le fichier [[Media:Tnt1.seq|Transposon Tnt1]] (cochez la case 'Display the overlapping matches'). En jouant sur le paramètre de taille de fénêtre, identifiez le nombre de répétitions significatives ?
 +
*Faible complexité : de la même façon analysez la séquence contenue dans [[Media:falciparum.seq|Plasmodium falciparum]]. Qu'observez-vous? A quoi cela correspond dans la séquence.
 +
== Alignement local et alignement global==
== Alignement local et alignement global==
-
En utilisant la suite [http://emboss.toulouse.inra.fr / EMBOSS], nous allons réaliser une comparaison entre les isoformes alpha des proytéines BCL2 humaine et de souris (numéro d'accesion Q64373).  
+
En utilisant la suite [http://emboss.toulouse.inra.fr / EMBOSS], nous allons réaliser une comparaison entre les isoformes alpha des protéines BCL2 humaine et de souris (numéro d'accesion P10415 et Q64373).  
* Faites un dotplot avec '''dotpath'''
* Faites un dotplot avec '''dotpath'''
Line 24: Line 85:
* Faites un alignement local avec '''Matcher'''
* Faites un alignement local avec '''Matcher'''
Qu'observez-vous ? <br/>
Qu'observez-vous ? <br/>
-
Demandez à voir d'autres alignements.<br/>
+
Demandez à voir d'autres alignements. (option 'Number of alternative matches', par défaut paramétrée sur 1) <br/>
Puis modifier les paramètres du score.
Puis modifier les paramètres du score.
== Alignement multiple ==
== Alignement multiple ==
-
A partir des résultats obtenus en Blast avec la banque SwissProt, sélectionner un ensemble de séquences pour réaliser l'alignement multiple (une dizaine). '''Attention''', si vous voulez faire ressortir des zones conservées versus des zones peu ou pas conservées au cours de l'évolution, il faut construire un échantillon dans lequel vous prendrez en compte '''des séquences proches mais aussi des séquences éloignées'''. '''Ne pas oublier''' d'inclure la protéine d'intérêt.
+
 
 +
* Réalisez un Blast avec P10415 sur la banque SwissProt
 +
 
 +
* Sélectionner un ensemble de séquences pour réaliser l'alignement multiple (une dizaine).  
 +
'''ATTENTION:''' si vous voulez faire ressortir des zones conservées versus des zones peu ou pas conservées au cours de l'évolution, il faut construire un échantillon dans lequel vous prendrez en compte des séquences proches mais aussi des séquences éloignées.  
 +
Ne pas oublier d'inclure la protéine d'intérêt P10415
 +
 
Les séquences doivent être extraites au format FASTA. Pour cela, dans la page de réponse de BlastP, cocher les séquences que vous voulez conserver puis à la fin de la page, cliquer sur ''Get selected sequences''. Dans la nouvelle page, choisir dans le menu ''Display FASTA (text)''. Sauvegarder les séquences dans un fichier texte. <br/>
Les séquences doivent être extraites au format FASTA. Pour cela, dans la page de réponse de BlastP, cocher les séquences que vous voulez conserver puis à la fin de la page, cliquer sur ''Get selected sequences''. Dans la nouvelle page, choisir dans le menu ''Display FASTA (text)''. Sauvegarder les séquences dans un fichier texte. <br/>
-
* Réaliser l'alignement multiple en utilisant le programme '''ClustalW''' sur le serveur [http://pbil.univ-lyon1.fr/ PBIL]. Sauvegarder cet alignement sur votre disque (sur la page de réponse, aller à Result files (text), cliquer sur le lien CLUSTALW, sauvegarder la page).
+
 
 +
* Réaliser l'alignement multiple en utilisant le programme '''Clustal''' (Clustal Omega) sur le serveur d'Expasy [http://www.ebi.ac.uk/Tools/msa/clustalo/ d'Expasy ]. Sauvegarder cet alignement sur votre disque (sur la page de réponse, aller à Result files (text), cliquer sur le lien CLUSTALW, sauvegarder la page).
Analyser l'alignement en repérant notamment les régions conservées.
Analyser l'alignement en repérant notamment les régions conservées.
-
L'étape suivante consiste à essayer de trouver une explication fonctionnelle et/ou structurale à ces régions conservées.
+
<!--
 +
* L'étape suivante consiste à essayer de trouver une explication fonctionnelle et/ou structurale à ces régions conservées.
La banque de données PROSITE renferme les signatures protéiques qui ont été établies pour différentes familles de protéines à partir d'alignements multiples dans lesquels les zones conservées ont été repérées. Cette conservation peut être représentée sous forme de motifs consensus ou sous forme de profils matriciels. Ces motifs sont ensuite recherchés dans l'ensemble des séquences, et s'ils ne sont trouvés que dans les séquences appartenant à la famille étudiée, ils sont considérés comme caractéristiques (spécifiques) de cette famille et constituent une '''signature protéique'''. Certains motifs peuvent être associés à une fonction (site catalytique, site de liaison à un ion, ''etc'').
La banque de données PROSITE renferme les signatures protéiques qui ont été établies pour différentes familles de protéines à partir d'alignements multiples dans lesquels les zones conservées ont été repérées. Cette conservation peut être représentée sous forme de motifs consensus ou sous forme de profils matriciels. Ces motifs sont ensuite recherchés dans l'ensemble des séquences, et s'ils ne sont trouvés que dans les séquences appartenant à la famille étudiée, ils sont considérés comme caractéristiques (spécifiques) de cette famille et constituent une '''signature protéique'''. Certains motifs peuvent être associés à une fonction (site catalytique, site de liaison à un ion, ''etc'').
* Est-ce que les zones que vous avez repérées correspondent aux motifs et domaines identifiés en tout début d'analyse ?  
* Est-ce que les zones que vous avez repérées correspondent aux motifs et domaines identifiés en tout début d'analyse ?  
-
<!-- Conservation principalement du domaine BCL2
+
Conservation principalement du domaine BCL2
SMART results
SMART results
Name Begin End E-value
Name Begin End E-value
Line 48: Line 117:
== Recherche de motifs et de domaines dans les séquences ==
== Recherche de motifs et de domaines dans les séquences ==
-
A partir de l'alignement multiple, établir un motif PROSITE correspondant à une zone conservée que vous espérez spécifique de la famille.
+
A partir de l'alignement multiple:
-
Exemple d'un motif PROSITE : <tt>G-A-[ILV]-X-D</tt>. Dans les cas où l'acide aminé est strictement conservé dans toutes les séquences alignées, on fait figurer son code à une lettre. C'est le cas ici des acides aminés G,A et D. Quand à une même position de l'alignement, on observe plusieurs acides aminés, on les énumère entre crochets [ILV]. Si le nombre d'acides aminés différents est trop important, on remplace cette énumération par X qui veut dire n'importe quel acide aminé. Quand on recherchera ce motif dans une séquence, on retiendra comme occurrences GAIMD, GAIRD, GALMD, GAVKD, ''etc''.
+
-
* Quand vous avez établi votre motif, rechercher sa présence dans les séquences de SwissProt et TrEMBL (logiciel [http://prosite.expasy.org/scanprosite/ ScanProsite]). D'après les résultats obtenus, pensez-vous qu'il est spécifique aux séquences de la famille à laquelle appartient votre protéine ?
+
* Etablissez un '''motif PROSITE''' correspondant à une zone conservée que vous espérez spécifique de la famille.
-
= Mise en application =
+
EXEMPLE d'un motif PROSITE : <tt>G-A-[ILV]-X-D</tt>. Dans les cas où l'acide aminé est strictement conservé dans toutes les séquences alignées, on fait figurer son code à une lettre. C'est le cas ici des acides aminés G,A et D. Quand à une même position de l'alignement, on observe plusieurs acides aminés, on les énumère entre crochets [ILV]. Si le nombre d'acides aminés différents est trop important, on remplace cette énumération par X qui veut dire n'importe quel acide aminé. Quand on recherchera ce motif dans une séquence, on retiendra comme occurrences GAIMD, GAIRD, GALMD, GAVKD, ''etc''.
-
Au laboratoire, vous êtes amenés a travailler sur le gène dont la séquence déduite en acides aminés est présentée ci-dessous:
+
* Quand vous avez établi votre motif, rechercher sa présence dans les séquences de SwissProt et TrEMBL (logiciel [http://prosite.expasy.org/scanprosite/ ScanProsite]). D'après les résultats obtenus, pensez-vous qu'il est spécifique aux séquences de la famille à laquelle appartient votre protéine ?
-
>prot
+
= Mise en application des TDs=
 +
Au laboratoire, vous êtes amenés a travailler sur la séquence ci-dessous:
 +
<!--
 +
>prot
 +
IGNLKDLNILYLHSNGFTGRIPREMSNLTLANLTDLDLSGNQLTGKIPRDFAALLLVLLEKKIENITCDS
MKLLSKTFLILTLTFFFFGIALAKQSFEPEIEALKSFKNGISNDPLGVLSDWTIIGSLRHCNWTGITCDS
MKLLSKTFLILTLTFFFFGIALAKQSFEPEIEALKSFKNGISNDPLGVLSDWTIIGSLRHCNWTGITCDS
TGHVVSVSLLEKQLEGVLSPAIANLTYLQVLDLTSNSFTGKIPAEIGKLTELNQLILYLNYFSGSIPSGI
TGHVVSVSLLEKQLEGVLSPAIANLTYLQVLDLTSNSFTGKIPAEIGKLTELNQLILYLNYFSGSIPSGI
Line 77: Line 149:
QEEAIEDFLKLCLFCTSSRPEDRPDMNEILTHLMKLRGKANSFREDRNEDREV
QEEAIEDFLKLCLFCTSSRPEDRPDMNEILTHLMKLRGKANSFREDRNEDREV
-
<!-- FLS2 A. thaliana, recepteur LRR-kinase >gi|15237426|ref|NP_199445.1| LRR receptor-like serine/threonine-protein kinase FLS2 [Arabidopsis thaliana] -->
+
FLS2 A. thaliana, recepteur LRR-kinase >gi|15237426|ref|NP_199445.1| LRR receptor-like serine/threonine-protein kinase FLS2 [Arabidopsis thaliana] -->
 +
 
 +
>seq1
 +
 
 +
attggcaacctgaaagatctgaacattctgtatctgcatagcaacggctttaccggccgc
 +
attccgcgcgaaatgagcaacctgaccctggcgaacctgaccgatctggatctgagcggc
 +
aaccagctgaccggcaaaattccgcgcgattttgcggcgctgctgctggtgctgctggaa
 +
aaaaaaattgaaaacattacctgcgatagcatgaaactgctgagcaaaacctttctgatt
 +
ctgaccctgaccttttttttttttggcattgcgctggcgaaacagagctttgaaccggaa
 +
attgaagcgctgaaaagctttaaaaacggcattagcaacgatccgctgggcgtgctgagc
 +
gattggaccattattggcagcctgcgccattgcaactggaccggcattacctgcgatagc
 +
accggccatgtggtgagcgtgagcctgctggaaaaacagctggaaggcgtgctgagcccg
 +
gcgattgcgaacctgacctatctgcaggtgctggatctgaccagcaacagctttaccggc
 +
aaaattccggcggaaattggcaaactgaccgaactgaaccagctgattctgtatctgaac
 +
tattttagcggcagcattccgagcggcatttgggaactgaaaaacattttttatctggat
 +
ctgcgcaacaacctgctgagcggcgatgtgccggaagaaatttgcaaaaccagcagcctg
 +
gtgctgattggctttgattataacaacctgaccggcaaaattccggaatgcctgggcgat
 +
ctggtgcatctgcagatgtttgtggcggcgggcaaccatctgaccggcagcattccggtg
 +
agcattggcaccctggcgaacctgaccgatctggatctgagcggcaaccagctgaccggc
 +
aaaattccgcgcgattttggcaacctgctgaacctgcagagcctggtgctgaccgaaaac
 +
ctgctggaaggcgatattccggcggaaattggcaactgcagcagcctggtgcagctggaa
 +
ctgtatgataaccagctgaccggcaaaattccggcggaactgggcaacctggtgcagctg
 +
caggcgctgcgcatttataaaaacaaactgaccagcagcattccgagcagcctgtttcgc
 +
ctgacccagctgacccatctgggcctgagcgaaaaccatctggtgggcccgattagcgaa
 +
gaaattggctttctggaaagcctggaagtgctgaccctgcatagcaacaactttaccggc
 +
gaatttccgcagagcattaccaacctgcgcaacctgaccgtgctgaccgtgggctttaac
 +
aacattagcggcgaactgccggcggatctgggcctgctgaccaacctgcgcaacctgagc
 +
gcgcatgataacctgctgaccggcccgattccgagcagcattagcaactgcaccggcctg
 +
aaactgctggatctgagccataaccagatgaccggcgaaattccgcgcggctttggccgc
 +
atgaacctgacctttattagcattggccgcaaccattttaccggcgaaattccggatgat
 +
atttttaactgcagcaacctggaaaccctgagcgtggcggataacaacctgaccggcacc
 +
ctgaaaccgctgattggcaaactgcagaaactgcgcattctgcaggtgagctataacagc
 +
ctgaccggcccgattccgcgcgaaattggcaacctgaaagatctgaacattctgtatctg
 +
catagcaacggctttaccggccgcattccgcgcgaaatgagcaacctgaccctgctgcag
 +
ggcctgcgcatgtatagcaacgatctggaaggcccgattccggaagaaatgtttgatatg
 +
aaactgctgagcgtgctggatctgagcaacaacaaatttagcggccagattccggcgctg
 +
tttagcaaactggaaagcctgacctatctgagcctgcagggcaacaaatttaacggcagc
 +
attccggcgagcctgaaaagcctgagcctgctgaacacctttgatattagcgataacctg
 +
ctgaccggcaccattccgggcgaactgctggcgagcctgaaaaacatgcagctgtatctg
 +
aactttagcaacaacctgctgaccggcaccattccgaaagaactgggcaaactggaaatg
 +
gtgcaggaaattgatctgagcaacaacctgtttagcggcagcattccgcgcagcctgcag
 +
gcgtgcaaaaacgtgtttaccctggattttagccagaacaacctgagcggccatattccg
 +
gatgaagtgtttcagggcatggatatgattattagcctgaacctgagccgcaacagcttt
 +
agcggcgaaattccgcagagctttggcaacatgacccatctggtgagcctggatctgagc
 +
agcaacaacctgaccggcgaaattccggaaagcctggcgaacctgagcaccctgaaacat
 +
ctgaaactggcgagcaacaacctgaaaggccatgtgccggaaagcggcgtgtttaaaaac
 +
attaacgcgagcgatctgatgggcaacaccgatctgtgcggcagcaaaaaaccgctgaaa
 +
ccgtgcaccattaaacagaaaagcagccattttagcaaacgcacccgcgtgattctgatt
 +
attctgggcagcgcggcggcgctgctgctggtgctgctgctggtgctgattctgacctgc
 +
tgcaaaaaaaaagaaaaaaaaattgaaaacagcagcgaaagcagcctgccggatctggat
 +
agcgcgctgaaactgaaacgctttgaaccgaaagaactggaacaggcgaccgatagcttt
 +
aacagcgcgaacattattggcagcagcagcctgagcaccgtgtataaaggccagctggaa
 +
gatggcaccgtgattgcggtgaaagtgctgaacctgaaagaatttagcgcggaaagcgat
 +
aaatggttttataccgaagcgaaaaccctgagccagctgaaacatcgcaacctggtgaaa
 +
attctgggctttgcgtgggaaagcggcaaaaccaaagcgctggtgctgccgtttatggaa
 +
aacggcaacctggaagataccattcatggcagcgcggcgccgattggcagcctgctggaa
 +
aaaattgatctgtgcgtgcatattgcgagcggcattgattatctgcatagcggctatggc
 +
tttccgattgtgcattgcgatctgaaaccggcgaacattctgctggatagcgatcgcgtg
 +
gcgcatgtgagcgattttggcaccgcgcgcattctgggctttcgcgaagatggcagcacc
 +
accgcgagcaccagcgcgtttgaaggcaccattggctatctggcgccggaatttgcgtat
 +
atgcgcaaagtgaccaccaaagcggatgtgtttagctttggcattattatgatggaactg
 +
atgaccaaacagcgcccgaccagcctgaacgatgaagatagccaggatatgaccctgcgc
 +
cagctggtggaaaaaagcattggcaacggccgcaaaggcatggtgcgcgtgctggatatg
 +
gaactgggcgatagcattgtgagcctgaaacaggaagaagcgattgaagattttctgaaa
 +
ctgtgcctgttttgcaccagcagccgcccggaagatcgcccggatatgaacgaaattctg
 +
acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat
 +
cgcgaagtg
Avec les outils utilisés au cours des différentes séances de TD, répondez aux questions suivantes:
Avec les outils utilisés au cours des différentes séances de TD, répondez aux questions suivantes:
 +
* cette séquence est-elle codante, si oui sur quelle phase de lecture
* a quel organisme appartient cette séquence ?
* a quel organisme appartient cette séquence ?
-
* quelles différences observez-vous lors d'une analyse Blast, sur la nr ou SwissProt ?
 
-
* existe-il des orthologues a cette protéine ?
 
* quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ?
* quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ?
-
Sauvegardez la séquence de l'ARNm et du gène au format fasta
+
* existe-il des orthologues a cette protéine ?  
-
* qu'est-ce que TAIR ?
+
-
* cette protéine peut-elle interagir avec d'autres protéines ?
+
-
* des publications scientifiques sont-elles disponibles sur cette protéine ?
+
-
* quelle est la fonction putative de cette protéine ?
+
* que veut dire db_xref=CDD:173623 sur la fiche GenPept?
* que veut dire db_xref=CDD:173623 sur la fiche GenPept?
-
* exite-t-il des domaines conservés dans cette protéine? Expliquez votre démarche
+
* quelle est la fonction putative de cette protéine ?
-
* sans tenir compte des informations disponibles dans la fiche GenPep, identifiez le nombre d'introns dans le gène codant cette protéine. Expliquez votre démarche.
+
 
 +
Sauvegardez la séquence de l'ARNm et du gène au format fasta
 +
 
 +
* exite-t-il des domaines conservés dans cette protéine?  
 +
* sans tenir compte des informations disponibles dans la fiche GenPep, identifiez le nombre d'introns/exons dans le gène codant cette protéine.

Current revision as of 12:23, 28 September 2016




Contents

Comparaison de 2 séquences

Vous allez comparer deux séquences correspondant à deux facteurs de transcription krox 24 et sp1, contenus dans les fichiers Krox24 et sp1.

En utilisant la suite / EMBOSS

  • Construisez un dotplot avec dotmatcher de ces deux séquences.Vous devez observer une similitude locale.
  • Comparez ensuite les deux séquences avec un alignement local en utilisant matcher (paramètres par défaut Gap penalty 14 et Gap length penalty. Retrouvez vous le résultat du dotplot?
  • Consultez les entrées SwissProt (Krox24 accession number P18146 et sp1 accession number P08047)pour déterminer à quoi correspond cette similitude locale.

Le dotplot peut également être utilisé pour étudier les régularités structurelles d'une séquence. Vous allez tester cette approche sur les deux exemples suivants.

  • Localisation de répétitions : analysez avec dotpath la séquence de rétrotransposon de tabac contenue dans le fichier Transposon Tnt1 (cochez la case 'Display the overlapping matches'). En jouant sur le paramètre de taille de fénêtre, identifiez le nombre de répétitions significatives ?
  • Faible complexité : de la même façon analysez la séquence contenue dans Plasmodium falciparum. Qu'observez-vous? A quoi cela correspond dans la séquence.


Alignement local et alignement global

En utilisant la suite / EMBOSS, nous allons réaliser une comparaison entre les isoformes alpha des protéines BCL2 humaine et de souris (numéro d'accesion P10415 et Q64373).

  • Faites un dotplot avec dotpath

Concluez

  • Faites un alignement global entre les 2 séquences avec Needle

Combien y a-t-il de gaps ?
A quoi correspond le pourcentage de similarité ?
Quels sont les paramètres de calcul du score ?
Modifiez-les et regardez en quoi l'alignement change.

  • Faites un alignement local avec Matcher

Qu'observez-vous ?
Demandez à voir d'autres alignements. (option 'Number of alternative matches', par défaut paramétrée sur 1)
Puis modifier les paramètres du score.

Alignement multiple

  • Réalisez un Blast avec P10415 sur la banque SwissProt
  • Sélectionner un ensemble de séquences pour réaliser l'alignement multiple (une dizaine).

ATTENTION: si vous voulez faire ressortir des zones conservées versus des zones peu ou pas conservées au cours de l'évolution, il faut construire un échantillon dans lequel vous prendrez en compte des séquences proches mais aussi des séquences éloignées. Ne pas oublier d'inclure la protéine d'intérêt P10415

Les séquences doivent être extraites au format FASTA. Pour cela, dans la page de réponse de BlastP, cocher les séquences que vous voulez conserver puis à la fin de la page, cliquer sur Get selected sequences. Dans la nouvelle page, choisir dans le menu Display FASTA (text). Sauvegarder les séquences dans un fichier texte.

  • Réaliser l'alignement multiple en utilisant le programme Clustal (Clustal Omega) sur le serveur d'Expasy d'Expasy . Sauvegarder cet alignement sur votre disque (sur la page de réponse, aller à Result files (text), cliquer sur le lien CLUSTALW, sauvegarder la page).

Analyser l'alignement en repérant notamment les régions conservées.

Recherche de motifs et de domaines dans les séquences

A partir de l'alignement multiple:

  • Etablissez un motif PROSITE correspondant à une zone conservée que vous espérez spécifique de la famille.

EXEMPLE d'un motif PROSITE : G-A-[ILV]-X-D. Dans les cas où l'acide aminé est strictement conservé dans toutes les séquences alignées, on fait figurer son code à une lettre. C'est le cas ici des acides aminés G,A et D. Quand à une même position de l'alignement, on observe plusieurs acides aminés, on les énumère entre crochets [ILV]. Si le nombre d'acides aminés différents est trop important, on remplace cette énumération par X qui veut dire n'importe quel acide aminé. Quand on recherchera ce motif dans une séquence, on retiendra comme occurrences GAIMD, GAIRD, GALMD, GAVKD, etc.

  • Quand vous avez établi votre motif, rechercher sa présence dans les séquences de SwissProt et TrEMBL (logiciel ScanProsite). D'après les résultats obtenus, pensez-vous qu'il est spécifique aux séquences de la famille à laquelle appartient votre protéine ?

Mise en application des TDs

Au laboratoire, vous êtes amenés a travailler sur la séquence ci-dessous:

>seq1

attggcaacctgaaagatctgaacattctgtatctgcatagcaacggctttaccggccgc attccgcgcgaaatgagcaacctgaccctggcgaacctgaccgatctggatctgagcggc aaccagctgaccggcaaaattccgcgcgattttgcggcgctgctgctggtgctgctggaa aaaaaaattgaaaacattacctgcgatagcatgaaactgctgagcaaaacctttctgatt ctgaccctgaccttttttttttttggcattgcgctggcgaaacagagctttgaaccggaa attgaagcgctgaaaagctttaaaaacggcattagcaacgatccgctgggcgtgctgagc gattggaccattattggcagcctgcgccattgcaactggaccggcattacctgcgatagc accggccatgtggtgagcgtgagcctgctggaaaaacagctggaaggcgtgctgagcccg gcgattgcgaacctgacctatctgcaggtgctggatctgaccagcaacagctttaccggc aaaattccggcggaaattggcaaactgaccgaactgaaccagctgattctgtatctgaac tattttagcggcagcattccgagcggcatttgggaactgaaaaacattttttatctggat ctgcgcaacaacctgctgagcggcgatgtgccggaagaaatttgcaaaaccagcagcctg gtgctgattggctttgattataacaacctgaccggcaaaattccggaatgcctgggcgat ctggtgcatctgcagatgtttgtggcggcgggcaaccatctgaccggcagcattccggtg agcattggcaccctggcgaacctgaccgatctggatctgagcggcaaccagctgaccggc aaaattccgcgcgattttggcaacctgctgaacctgcagagcctggtgctgaccgaaaac ctgctggaaggcgatattccggcggaaattggcaactgcagcagcctggtgcagctggaa ctgtatgataaccagctgaccggcaaaattccggcggaactgggcaacctggtgcagctg caggcgctgcgcatttataaaaacaaactgaccagcagcattccgagcagcctgtttcgc ctgacccagctgacccatctgggcctgagcgaaaaccatctggtgggcccgattagcgaa gaaattggctttctggaaagcctggaagtgctgaccctgcatagcaacaactttaccggc gaatttccgcagagcattaccaacctgcgcaacctgaccgtgctgaccgtgggctttaac aacattagcggcgaactgccggcggatctgggcctgctgaccaacctgcgcaacctgagc gcgcatgataacctgctgaccggcccgattccgagcagcattagcaactgcaccggcctg aaactgctggatctgagccataaccagatgaccggcgaaattccgcgcggctttggccgc atgaacctgacctttattagcattggccgcaaccattttaccggcgaaattccggatgat atttttaactgcagcaacctggaaaccctgagcgtggcggataacaacctgaccggcacc ctgaaaccgctgattggcaaactgcagaaactgcgcattctgcaggtgagctataacagc ctgaccggcccgattccgcgcgaaattggcaacctgaaagatctgaacattctgtatctg catagcaacggctttaccggccgcattccgcgcgaaatgagcaacctgaccctgctgcag ggcctgcgcatgtatagcaacgatctggaaggcccgattccggaagaaatgtttgatatg aaactgctgagcgtgctggatctgagcaacaacaaatttagcggccagattccggcgctg tttagcaaactggaaagcctgacctatctgagcctgcagggcaacaaatttaacggcagc attccggcgagcctgaaaagcctgagcctgctgaacacctttgatattagcgataacctg ctgaccggcaccattccgggcgaactgctggcgagcctgaaaaacatgcagctgtatctg aactttagcaacaacctgctgaccggcaccattccgaaagaactgggcaaactggaaatg gtgcaggaaattgatctgagcaacaacctgtttagcggcagcattccgcgcagcctgcag gcgtgcaaaaacgtgtttaccctggattttagccagaacaacctgagcggccatattccg gatgaagtgtttcagggcatggatatgattattagcctgaacctgagccgcaacagcttt agcggcgaaattccgcagagctttggcaacatgacccatctggtgagcctggatctgagc agcaacaacctgaccggcgaaattccggaaagcctggcgaacctgagcaccctgaaacat ctgaaactggcgagcaacaacctgaaaggccatgtgccggaaagcggcgtgtttaaaaac attaacgcgagcgatctgatgggcaacaccgatctgtgcggcagcaaaaaaccgctgaaa ccgtgcaccattaaacagaaaagcagccattttagcaaacgcacccgcgtgattctgatt attctgggcagcgcggcggcgctgctgctggtgctgctgctggtgctgattctgacctgc tgcaaaaaaaaagaaaaaaaaattgaaaacagcagcgaaagcagcctgccggatctggat agcgcgctgaaactgaaacgctttgaaccgaaagaactggaacaggcgaccgatagcttt aacagcgcgaacattattggcagcagcagcctgagcaccgtgtataaaggccagctggaa gatggcaccgtgattgcggtgaaagtgctgaacctgaaagaatttagcgcggaaagcgat aaatggttttataccgaagcgaaaaccctgagccagctgaaacatcgcaacctggtgaaa attctgggctttgcgtgggaaagcggcaaaaccaaagcgctggtgctgccgtttatggaa aacggcaacctggaagataccattcatggcagcgcggcgccgattggcagcctgctggaa aaaattgatctgtgcgtgcatattgcgagcggcattgattatctgcatagcggctatggc tttccgattgtgcattgcgatctgaaaccggcgaacattctgctggatagcgatcgcgtg gcgcatgtgagcgattttggcaccgcgcgcattctgggctttcgcgaagatggcagcacc accgcgagcaccagcgcgtttgaaggcaccattggctatctggcgccggaatttgcgtat atgcgcaaagtgaccaccaaagcggatgtgtttagctttggcattattatgatggaactg atgaccaaacagcgcccgaccagcctgaacgatgaagatagccaggatatgaccctgcgc cagctggtggaaaaaagcattggcaacggccgcaaaggcatggtgcgcgtgctggatatg gaactgggcgatagcattgtgagcctgaaacaggaagaagcgattgaagattttctgaaa ctgtgcctgttttgcaccagcagccgcccggaagatcgcccggatatgaacgaaattctg acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat cgcgaagtg

Avec les outils utilisés au cours des différentes séances de TD, répondez aux questions suivantes:

  • cette séquence est-elle codante, si oui sur quelle phase de lecture
  • a quel organisme appartient cette séquence ?
  • quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ?
  • existe-il des orthologues a cette protéine ?
  • que veut dire db_xref=CDD:173623 sur la fiche GenPept?
  • quelle est la fonction putative de cette protéine ?

Sauvegardez la séquence de l'ARNm et du gène au format fasta

  • exite-t-il des domaines conservés dans cette protéine?
  • sans tenir compte des informations disponibles dans la fiche GenPep, identifiez le nombre d'introns/exons dans le gène codant cette protéine.