silico.biotoul.fr
 

TD5 Bioanalyse

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(EXERCICE 2 : recherche d'homologues)
(EXERCICE 3 : recherche dans les banques par mots-clés)
(31 intermediate revisions not shown)
Line 1: Line 1:
==EXERCICE 1 : caractérisation d'une protéine==
==EXERCICE 1 : caractérisation d'une protéine==
-
A partir de la protéine suivante, faites une recherche de domaine sur InterProScan :
+
A partir de la protéine suivante, faites une recherche de domaine sur [https://www.ebi.ac.uk/interpro/search/sequence-search InterProScan] :
-
 
+
-
>NP_060575.1| THAP domain-containing protein 1 isoform 1 [Homo sapiens]
+
-
 
+
-
MVQSCSAYGCKNRYDKDKPVSFHKFPLTRPSLCKEWEAAVRRKNFKPTKYSSICSEHFTPDCFKRECNNK
+
-
LLKENAVPTIFLCTEPHDKKEDLLEPQEQLPPPPLPPPVSQVDAAIGLLMPPLQTPVNLSVFCDHNYTVE
+
-
DTMHQRKRIHQLEQQVEKLRKKLKTAQQRCRRQERQLEKLKEVVHFQKEKDDVSERGYVILPNDYFEIVE
+
-
VPA
+
 +
>NP_060575.1| THAP domain-containing protein 1 isoform 1 [Homo sapiens]
 +
MVQSCSAYGCKNRYDKDKPVSFHKFPLTRPSLCKEWEAAVRRKNFKPTKYSSICSEHFTPDCFKRECNNK
 +
LLKENAVPTIFLCTEPHDKKEDLLEPQEQLPPPPLPPPVSQVDAAIGLLMPPLQTPVNLSVFCDHNYTVE
 +
DTMHQRKRIHQLEQQVEKLRKKLKTAQQRCRRQERQLEKLKEVVHFQKEKDDVSERGYVILPNDYFEIVE
 +
VPA
Vous devez trouver un domaine C2CH-type, nommé THAP :
Vous devez trouver un domaine C2CH-type, nommé THAP :
-
    Quelles sont les positions du domaine selon les banques ?
+
*Quelles sont les positions du domaine selon les banques ?
-
    Regarder le domaine dans PFAM et dans PROSITE : faites afficher les Logos. Pourquoi sont-ils si différents ?
+
*Regarder le domaine dans PFAM et dans PROSITE : faites afficher les Logos. Pourquoi sont-ils si différents ?
==EXERCICE 2 : recherche d'homologues==
==EXERCICE 2 : recherche d'homologues==
-
A partir de la séquence précédente, lancer un BLASTP au NCBI contre la banque SwissProt.
+
A partir de la séquence précédente, lancer un BLASTP au [https://www.ncbi.nlm.nih.gov/ NCBI] contre la banque SwissProt.
-
Regardez les résultats : sur quelle partie trouvez-vous des séquences alignées ?
+
*Regardez les résultats : sur quelle partie trouvez-vous des séquences alignées ?
En fait la famille des protéines THAP contient différents paralogues chez chaque espèce (appelés de THAP 1 à THAP 11) qui n'ont en commun que le domaine THAP situé en position N-terminale. Il y a par contre une très bonne conservation entre orthologues (THAP 1 chez l'homme, souris, zebrafish par exemple)
En fait la famille des protéines THAP contient différents paralogues chez chaque espèce (appelés de THAP 1 à THAP 11) qui n'ont en commun que le domaine THAP situé en position N-terminale. Il y a par contre une très bonne conservation entre orthologues (THAP 1 chez l'homme, souris, zebrafish par exemple)
-
Passer par le lien Taxonomy reports (en haut de la page) et récupérer les séquences de Primates, au format FASTA
+
*Passer par le lien Taxonomy reports (en haut de la page) et récupérer les séquences de Primates, au format FASTA
==EXERCICE 3 : recherche dans les banques par mots-clés==
==EXERCICE 3 : recherche dans les banques par mots-clés==
-
    Sur le site du NCBI, via ENTREZ, chercher les protéines THAP de souris, poulet et zebrafish, dans la banque RefSeq et n'étant pas prédites, et qui ne soit pas des isoformes 2 (ni 3, 4...)
+
Sur le site du NCBI, via ENTREZ, chercher les protéines THAP de souris, poulet et zebrafish, dans la banque RefSeq et n'étant pas prédites.
 +
Parmi les résultats vous avez beaucoup de séquences qui sont des ''RefSeq models'' (numéro d'accession en XP_). Elles sont le résultats de prédiction automatique avec gnomon. Faites une requête pour les supprimer.  
-
    Pour vous assurer que ces séquences possèdent bien un domaine THAP, lancez CD-search (sur la droite) : que constatez-vous ?
+
Parmi les séquences obtenues, sélectionnez (cocher) celles qui ne sont pas des isoformes 2 ni X1, X2, et vérifiez qu'elles n'ont pas des numéros d'accession de la forme XP_***** (vous devriez en avoir 13)
-
    Choisissez un programme de EMBOSS pour comparer les protéines THAP 4 de souris et de zebrafish : qu'en concluez-vous quant à l'annotation de la protéine de zebrafish ?
+
*Pour vous assurer que ces séquences possèdent bien un domaine THAP, lancez CD-search (sur la droite, si le lien n'apparait pas demander d'abord l'affichage au format Fasta) : que constatez-vous ?
-
    Récupérez les séquences (possédant un domaine THAP) au format FASTA
+
*Choisissez un programme de [http://www.bioinformatics.nl/emboss-explorer/ EMBOSS] pour comparer les protéines THAP 4 de souris et de zebrafish : qu'en concluez-vous quant à l'annotation de la protéine de zebrafish ?
 +
 
 +
*Récupérez les séquences (possédant un domaine THAP) au format FASTA
==EXERCICE 4 : alignement multiple==
==EXERCICE 4 : alignement multiple==
-
A partir de l'ensemble des séquences que vous avez récupéré (exercice 2 + exercice 3), faites un alignement multiple avec MAFFT.
+
A partir de l'ensemble des séquences que vous avez récupéré (exercice 2 + exercice 3):
 +
 
 +
*Faites un alignement multiple avec [http://www.ebi.ac.uk/Tools/msa/mafft/ MAFFT] à l'EBI.
En regardant cet alignement, vous devez retrouver la signature suivante :
En regardant cet alignement, vous devez retrouver la signature suivante :
M-x(3,4)-C-x(4)-C-x(9,15)-[FL]-x(2)-[FL]-P-x(8,9)-W
M-x(3,4)-C-x(4)-C-x(9,15)-[FL]-x(2)-[FL]-P-x(8,9)-W
-
Essayer de construisez une signature PROSITE (pattern) sur la fin du domaine THAP
+
*Essayer de construire une signature PROSITE (pattern) sur la fin du domaine THAP
-
 
+
-
Regarder sur quelles séquences de SwissProt sont retrouvées ces 2 signatures, avec ScanProsite. Calculez la spécificité et la sensibilité de votre signature.
+
-
 
+
 +
*Regarder sur quelles séquences de SwissProt sont retrouvées ces 2 signatures (vous pouvez écrire 2 signatures, séparées par "and") avec [http://prosite.expasy.org/scanprosite/ ScanProsite]. Calculez la spécificité et la sensibilité de votre signature.
 +
==Annexes==
-
Les séquences
+
[http://snp.toulouse.inra.fr/~mathe/L3/TP5/sequences.fasta Les séquences]
-
Résultat de ScanProsite
+
Résultat [http://snp.toulouse.inra.fr/~mathe/L3/TP5/ScanProsite.htm de ScanProsite]

Revision as of 07:49, 5 March 2019

Contents

EXERCICE 1 : caractérisation d'une protéine

A partir de la protéine suivante, faites une recherche de domaine sur InterProScan :

>NP_060575.1| THAP domain-containing protein 1 isoform 1 [Homo sapiens]
MVQSCSAYGCKNRYDKDKPVSFHKFPLTRPSLCKEWEAAVRRKNFKPTKYSSICSEHFTPDCFKRECNNK
LLKENAVPTIFLCTEPHDKKEDLLEPQEQLPPPPLPPPVSQVDAAIGLLMPPLQTPVNLSVFCDHNYTVE
DTMHQRKRIHQLEQQVEKLRKKLKTAQQRCRRQERQLEKLKEVVHFQKEKDDVSERGYVILPNDYFEIVE
VPA

Vous devez trouver un domaine C2CH-type, nommé THAP :

  • Quelles sont les positions du domaine selon les banques ?
  • Regarder le domaine dans PFAM et dans PROSITE : faites afficher les Logos. Pourquoi sont-ils si différents ?

EXERCICE 2 : recherche d'homologues

A partir de la séquence précédente, lancer un BLASTP au NCBI contre la banque SwissProt.

  • Regardez les résultats : sur quelle partie trouvez-vous des séquences alignées ?

En fait la famille des protéines THAP contient différents paralogues chez chaque espèce (appelés de THAP 1 à THAP 11) qui n'ont en commun que le domaine THAP situé en position N-terminale. Il y a par contre une très bonne conservation entre orthologues (THAP 1 chez l'homme, souris, zebrafish par exemple)

  • Passer par le lien Taxonomy reports (en haut de la page) et récupérer les séquences de Primates, au format FASTA

EXERCICE 3 : recherche dans les banques par mots-clés

Sur le site du NCBI, via ENTREZ, chercher les protéines THAP de souris, poulet et zebrafish, dans la banque RefSeq et n'étant pas prédites. Parmi les résultats vous avez beaucoup de séquences qui sont des RefSeq models (numéro d'accession en XP_). Elles sont le résultats de prédiction automatique avec gnomon. Faites une requête pour les supprimer.

Parmi les séquences obtenues, sélectionnez (cocher) celles qui ne sont pas des isoformes 2 ni X1, X2, et vérifiez qu'elles n'ont pas des numéros d'accession de la forme XP_***** (vous devriez en avoir 13)

  • Pour vous assurer que ces séquences possèdent bien un domaine THAP, lancez CD-search (sur la droite, si le lien n'apparait pas demander d'abord l'affichage au format Fasta) : que constatez-vous ?
  • Choisissez un programme de EMBOSS pour comparer les protéines THAP 4 de souris et de zebrafish : qu'en concluez-vous quant à l'annotation de la protéine de zebrafish ?
  • Récupérez les séquences (possédant un domaine THAP) au format FASTA

EXERCICE 4 : alignement multiple

A partir de l'ensemble des séquences que vous avez récupéré (exercice 2 + exercice 3):

  • Faites un alignement multiple avec MAFFT à l'EBI.

En regardant cet alignement, vous devez retrouver la signature suivante : M-x(3,4)-C-x(4)-C-x(9,15)-[FL]-x(2)-[FL]-P-x(8,9)-W

  • Essayer de construire une signature PROSITE (pattern) sur la fin du domaine THAP
  • Regarder sur quelles séquences de SwissProt sont retrouvées ces 2 signatures (vous pouvez écrire 2 signatures, séparées par "and") avec ScanProsite. Calculez la spécificité et la sensibilité de votre signature.

Annexes

Les séquences

Résultat de ScanProsite