silico.biotoul.fr
 

TD1 Bioanalyse

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(EXERCICE 4 : Recherche dans des banques spécialisées)
(EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés)
Line 62: Line 62:
         à quelle section de UniProt appartient cette séquence ?
         à quelle section de UniProt appartient cette séquence ?
         que constatez-vous par rapport à la fiche GenPept ?
         que constatez-vous par rapport à la fiche GenPept ?
-
         quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés. L'annotation GO est-elle présente dans la fiche GenPept ?
+
         quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés.
 +
L'annotation GO est-elle présente dans la fiche GenPept ?
=EXERCICE 3 : Quelques exemples de recherches avancées sur [http://www.uniprot.org/ Uniprot]=
=EXERCICE 3 : Quelques exemples de recherches avancées sur [http://www.uniprot.org/ Uniprot]=

Revision as of 08:59, 10 September 2016


Contents

OBJECTIFS DU TP

   Etre capable de retrouver une séquence dont on connait le numéro d'accession dans sa banque
   Savoir comment s'organisent les fiches des séquences, et où y chercher les informations
   Etre capable de trouver une ou des séquences à l'aide de mots clés ciblant des champs spécifiques
   Naviguer entre les banques, changer de format, télécharger des séquences

EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques

1/ Aller sur le site d'UniProt : chercher la séquence P01308.

  • De quelle protéine s'agit-il ? chez quel organisme ?
  • Quelle est la taille de cette séquence ?
  • Que sont les "VARIANT" ?
  • Y a-t-il des preuves expérimentales de l'existence de cette protéine ?
  • Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
  • Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et aller voir l'onglet Ancestor Chart

Faire afficher le format UniProtKB en cliquant sur Format => Text en haut de la page

2/ Sur le site du NCBI : chercher (via Entrez) la même séquence.

  • Quels sont les résultats ?
  • Cliquer sur Protein : la séquence est ici au format GenPept
  • Revenez aux résultats et cliquer sur Gene : regarder l'entrée INS, en particulier la partie NCBI Reference Sequences : combien de variants d'épissage ? et dans Related Sequences : combien d'ARNm ?
  • Regarder la séquence génomique RefSeq NG_007114 (format Genbank) : combien d'exons composent ce gène ? combien interrompent la séquence codante ?

EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés

Quand on rentre plusieurs mots clés, par défaut, le système de requête utilise l'opérateur AND. Vous pouvez aussi combiner les mots avec OR ou NOT.

1/ Sur le serveur du NCBI, identifiez :

  • toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre) : combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux)

Pour cela utiliser ENTREZ, et si vous ne voulez rechercher que dans la banque protéique, cliquer sur Protein, puis utiliser l'option Advanced. A l'aide de l'outil Search builder préciser les champs (Organism, Title...) et conjuguer vos requêtes. L'historique de vos requêtes est disponible en dessous et vous pouvez combinez des résultats de requêtes précédentes avec les mêmes opérateurs AND, OR et NOT.

NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...

2/ On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • comment s'organise cette fiche ?
  • quel est le nom de cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?
  • de combien d'acides aminés est composée cette protéine ?


3/ On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

  • à quoi correspondent ces différentes références croisées ?
  • quels domaines sont présents dans la protéine ?
  • quel est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ?
  • ce domaine est-il référencé dans d'autres banques de domaines ? Si oui, lesquelles et avec quel numéro d'accession ?
  • aller sur le lien db_xref vers UniProt O42830 :
       à quelle section de UniProt appartient cette séquence ?
       que constatez-vous par rapport à la fiche GenPept ?
       quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés.

L'annotation GO est-elle présente dans la fiche GenPept ?

EXERCICE 3 : Quelques exemples de recherches avancées sur Uniprot

1/ Chercher les séquences protéiques d'insuline chez le chien :

  • combien sont référencées dans UniProt/SwissProt ?
  • combien dans trEMBL ?
  • afficher les séquences au format FASTA

2/ Sur le site d'UniProt, trouver le nombre total de séquences dans trEMBL

3/ Toujours sur UniProt, chercher des séquences protéiques de dinosaures

4/ Trouver le nombre de séquences de trEMBL avec des preuves au niveau protéique, chez des organismes eucaryotes n'appartenant pas aux champignons.

  • combien sont transmembranaires ?

EXERCICE 4 : Recherche dans des banques spécialisées

1/ Allez sur le site de la banque spécialisée COGEME

  • à quel type de banque appartient COGEME ?
  • trouvez le nombre de séquences correspondant à des endoglucanases du champignon pathogène du riz, Magnaporthe grisea
  • qu'est-ce-qu'un contig ?
  • de combien d'EST est constitué le contig MagCon[10456a] ?
  • afficher au format FASTA l'ensemble des endoglucanases de M. grisea

2/ Recherche dans les banques de domaines :

  • interrogez PFAM par mots-clés pour chercher les domaines cytochrome b5
  • récupérez la séquence P00174 au format FASTA (sur UniProt ou au NCBI).
  • utilisez InterProScan à l'EBI (Services => Proteins => InterProScan) pour chercher des domaines connus sur cette séquence