silico.biotoul.fr
 

TD1 Bioanalyse

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés)
(EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques)
(17 intermediate revisions not shown)
Line 1: Line 1:
-------------------------------------------------------
-------------------------------------------------------
-
=OBJECTIFS DU TP=
+
=OBJECTIFS=
-
    Etre capable de retrouver une séquence dont on connait le numéro d'accession dans sa banque
+
  - Etre capable de retrouver une séquence dont on connait le numéro d'accession dans sa banque
-
    Savoir comment s'organisent les fiches des séquences, et où y chercher les informations
+
  - Savoir comment s'organisent les fiches des séquences, et où y chercher les informations
-
    Etre capable de trouver une ou des séquences à l'aide de mots clés ciblant des champs spécifiques
+
  - Etre capable de trouver une ou des séquences à l'aide de mots clés ciblant des champs spécifiques
-
    Naviguer entre les banques, changer de format, télécharger des séquences
+
  - Naviguer entre les banques, changer de format, télécharger des séquences
-----------------------------------------------------------
-----------------------------------------------------------
=EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques=
=EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques=
-
'''1/''' Aller sur le site d'UniProt : chercher la séquence P01308.
+
'''1/''' Aller sur le site d' [http://www.uniprot.org/ UniProt] : chercher la séquence P01308.
*De quelle protéine s'agit-il ? chez quel organisme ?
*De quelle protéine s'agit-il ? chez quel organisme ?
Line 17: Line 17:
*Y a-t-il des preuves expérimentales de l'existence de cette protéine ?
*Y a-t-il des preuves expérimentales de l'existence de cette protéine ?
*Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
*Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
-
*Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et aller voir l'onglet Ancestor Chart
+
*Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et regarder '''Ancestor Chart'''
'''Faire afficher le format UniProtKB en cliquant sur Format => Text en haut de la page'''
'''Faire afficher le format UniProtKB en cliquant sur Format => Text en haut de la page'''
'''
'''
-
2/''' Sur le site du NCBI : chercher (via Entrez) la même séquence.
+
2/''' Sur le site du [http://www.ncbi.nlm.nih.gov/ NCBI] : chercher (''via'' '''ENTREZ''') la même séquence.
*Quels sont les résultats ?
*Quels sont les résultats ?
*Cliquer sur Protein : la séquence est ici au format GenPept
*Cliquer sur Protein : la séquence est ici au format GenPept
-
*Revenez aux résultats et cliquer sur Gene : regarder l'entrée INS, en particulier la partie NCBI Reference Sequences : combien de variants d'épissage ? et dans Related Sequences : combien d'ARNm ?
+
*Revenez aux résultats et cliquer sur Gene : regarder l'entrée INS, en particulier la partie '''NCBI Reference Sequences''' : combien de variants d'épissage ? et dans '''Related Sequences''' : combien d'ARNm ?
-
*Regarder la séquence génomique RefSeq NG_007114 (format Genbank) : combien d'exons composent ce gène ? combien interrompent  la séquence codante ?
+
*Regarder la séquence génomique RefSeq NG_007114 (format Genbank) : combien d'exons composent ce gène ? combien constituent la séquence codante ?
=EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés=
=EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés=
Line 33: Line 33:
Quand on rentre plusieurs mots clés, par défaut, le système de requête utilise l'opérateur AND. Vous pouvez aussi combiner les mots avec OR ou NOT.
Quand on rentre plusieurs mots clés, par défaut, le système de requête utilise l'opérateur AND. Vous pouvez aussi combiner les mots avec OR ou NOT.
-
'''1/''' Sur le serveur du NCBI, identifiez :
+
'''1/''' Sur le serveur du [http://www.ncbi.nlm.nih.gov/ NCBI], identifiez :
*toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre) : combien sont-elles ?
*toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre) : combien sont-elles ?
Line 57: Line 57:
*à quoi correspondent ces différentes références croisées ?
*à quoi correspondent ces différentes références croisées ?
*quels domaines sont présents dans la protéine ?
*quels domaines sont présents dans la protéine ?
-
*quel est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ?
+
*quelle est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ?
*ce domaine est-il référencé dans d'autres banques de domaines ? Si oui, lesquelles et avec quel numéro d'accession ?
*ce domaine est-il référencé dans d'autres banques de domaines ? Si oui, lesquelles et avec quel numéro d'accession ?
*aller sur le lien db_xref vers UniProt O42830 :
*aller sur le lien db_xref vers UniProt O42830 :
-
        à quelle section de UniProt appartient cette séquence ?
+
- à quelle section de UniProt appartient cette séquence ?<br>
-
        que constatez-vous par rapport à la fiche GenPept ?
+
- que constatez-vous par rapport à la fiche GenPept ?<br>
-
        quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés.L'annotation GO est-elle dans GenPept ?
+
- quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés. L'annotation GO est-elle dans GenPept ?
=EXERCICE 3 : Quelques exemples de recherches avancées sur [http://www.uniprot.org/ Uniprot]=
=EXERCICE 3 : Quelques exemples de recherches avancées sur [http://www.uniprot.org/ Uniprot]=
Line 80: Line 80:
=EXERCICE 4 : Recherche dans des banques spécialisées=
=EXERCICE 4 : Recherche dans des banques spécialisées=
-
1/ Allez sur le site de la banque spécialisée [http://cogeme.ex.ac.uk/ COGEME]
+
1/ Allez sur le site [https://www.araport.org/ ARAPORT]
-
*à quel type de banque appartient COGEME ?
+
*qu'est-ce qu'ARAPORT ?
-
*trouvez le nombre de séquences correspondant à des endoglucanases du champignon pathogène du riz, Magnaporthe grisea
+
*Allez sur JBROWSE : utilisez le zoom pour afficher des gènes sur une région. Demandez à voir les alignements avec EST/Full length cDNAs
-
*qu'est-ce-qu'un contig ?
+
*Allez dans THALEMINE : dans l'onglet Regions, chercher les CDS du chromosome 4 entre la position 20 000 et 60 000
-
*de combien d'EST est constitué le contig MagCon[10456a] ?
+
-
*afficher au format FASTA l'ensemble des endoglucanases de M. grisea
+
2/ Recherche dans les banques de domaines :
2/ Recherche dans les banques de domaines :

Revision as of 09:21, 21 September 2017


Contents

OBJECTIFS

 - Etre capable de retrouver une séquence dont on connait le numéro d'accession dans sa banque
 - Savoir comment s'organisent les fiches des séquences, et où y chercher les informations
 - Etre capable de trouver une ou des séquences à l'aide de mots clés ciblant des champs spécifiques
 - Naviguer entre les banques, changer de format, télécharger des séquences

EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques

1/ Aller sur le site d' UniProt : chercher la séquence P01308.

  • De quelle protéine s'agit-il ? chez quel organisme ?
  • Quelle est la taille de cette séquence ?
  • Que sont les "VARIANT" ?
  • Y a-t-il des preuves expérimentales de l'existence de cette protéine ?
  • Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
  • Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et regarder Ancestor Chart

Faire afficher le format UniProtKB en cliquant sur Format => Text en haut de la page

2/ Sur le site du NCBI : chercher (via ENTREZ) la même séquence.

  • Quels sont les résultats ?
  • Cliquer sur Protein : la séquence est ici au format GenPept
  • Revenez aux résultats et cliquer sur Gene : regarder l'entrée INS, en particulier la partie NCBI Reference Sequences : combien de variants d'épissage ? et dans Related Sequences : combien d'ARNm ?
  • Regarder la séquence génomique RefSeq NG_007114 (format Genbank) : combien d'exons composent ce gène ? combien constituent la séquence codante ?

EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés

Quand on rentre plusieurs mots clés, par défaut, le système de requête utilise l'opérateur AND. Vous pouvez aussi combiner les mots avec OR ou NOT.

1/ Sur le serveur du NCBI, identifiez :

  • toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre) : combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux)

Pour cela utiliser ENTREZ, et si vous ne voulez rechercher que dans la banque protéique, cliquer sur Protein, puis utiliser l'option Advanced. A l'aide de l'outil Search builder préciser les champs (Organism, Title...) et conjuguer vos requêtes. L'historique de vos requêtes est disponible en dessous et vous pouvez combinez des résultats de requêtes précédentes avec les mêmes opérateurs AND, OR et NOT.

NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...

2/ On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • comment s'organise cette fiche ?
  • quel est le nom de cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?
  • de combien d'acides aminés est composée cette protéine ?


3/ On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

  • à quoi correspondent ces différentes références croisées ?
  • quels domaines sont présents dans la protéine ?
  • quelle est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ?
  • ce domaine est-il référencé dans d'autres banques de domaines ? Si oui, lesquelles et avec quel numéro d'accession ?
  • aller sur le lien db_xref vers UniProt O42830 :

- à quelle section de UniProt appartient cette séquence ?
- que constatez-vous par rapport à la fiche GenPept ?
- quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés. L'annotation GO est-elle dans GenPept ?

EXERCICE 3 : Quelques exemples de recherches avancées sur Uniprot

1/ Chercher les séquences protéiques d'insuline chez le chien :

  • combien sont référencées dans UniProt/SwissProt ?
  • combien dans trEMBL ?
  • afficher les séquences au format FASTA

2/ Sur le site d'UniProt, trouver le nombre total de séquences dans trEMBL

3/ Toujours sur UniProt, chercher des séquences protéiques de dinosaures

4/ Trouver le nombre de séquences de trEMBL avec des preuves au niveau protéique, chez des organismes eucaryotes n'appartenant pas aux champignons.

  • combien sont transmembranaires ?

EXERCICE 4 : Recherche dans des banques spécialisées

1/ Allez sur le site ARAPORT

  • qu'est-ce qu'ARAPORT ?
  • Allez sur JBROWSE : utilisez le zoom pour afficher des gènes sur une région. Demandez à voir les alignements avec EST/Full length cDNAs
  • Allez dans THALEMINE : dans l'onglet Regions, chercher les CDS du chromosome 4 entre la position 20 000 et 60 000

2/ Recherche dans les banques de domaines :

  • interrogez PFAM par mots-clés pour chercher les domaines cytochrome b5
  • récupérez la séquence P00174 au format FASTA (sur UniProt ou au NCBI).
  • utilisez InterProScan à l'EBI (Services => Proteins => InterProScan) pour chercher des domaines connus sur cette séquence