silico.biotoul.fr
 

TD1 Bioanalyse

From silico.biotoul.fr

Revision as of 09:21, 21 September 2017 by Gaulin (Talk | contribs)
(diff) ← Older revision | Current revision (diff) | Newer revision → (diff)
Jump to: navigation, search

Contents

OBJECTIFS

 - Etre capable de retrouver une séquence dont on connait le numéro d'accession dans sa banque
 - Savoir comment s'organisent les fiches des séquences, et où y chercher les informations
 - Etre capable de trouver une ou des séquences à l'aide de mots clés ciblant des champs spécifiques
 - Naviguer entre les banques, changer de format, télécharger des séquences

EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques

1/ Aller sur le site d' UniProt : chercher la séquence P01308.

  • De quelle protéine s'agit-il ? chez quel organisme ?
  • Quelle est la taille de cette séquence ?
  • Que sont les "VARIANT" ?
  • Y a-t-il des preuves expérimentales de l'existence de cette protéine ?
  • Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
  • Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et regarder Ancestor Chart

Faire afficher le format UniProtKB en cliquant sur Format => Text en haut de la page

2/ Sur le site du NCBI : chercher (via ENTREZ) la même séquence.

  • Quels sont les résultats ?
  • Cliquer sur Protein : la séquence est ici au format GenPept
  • Revenez aux résultats et cliquer sur Gene : regarder l'entrée INS, en particulier la partie NCBI Reference Sequences : combien de variants d'épissage ? et dans Related Sequences : combien d'ARNm ?
  • Regarder la séquence génomique RefSeq NG_007114 (format Genbank) : combien d'exons composent ce gène ? combien constituent la séquence codante ?

EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés

Quand on rentre plusieurs mots clés, par défaut, le système de requête utilise l'opérateur AND. Vous pouvez aussi combiner les mots avec OR ou NOT.

1/ Sur le serveur du NCBI, identifiez :

  • toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre) : combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux)

Pour cela utiliser ENTREZ, et si vous ne voulez rechercher que dans la banque protéique, cliquer sur Protein, puis utiliser l'option Advanced. A l'aide de l'outil Search builder préciser les champs (Organism, Title...) et conjuguer vos requêtes. L'historique de vos requêtes est disponible en dessous et vous pouvez combinez des résultats de requêtes précédentes avec les mêmes opérateurs AND, OR et NOT.

NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...

2/ On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • comment s'organise cette fiche ?
  • quel est le nom de cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?
  • de combien d'acides aminés est composée cette protéine ?


3/ On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

  • à quoi correspondent ces différentes références croisées ?
  • quels domaines sont présents dans la protéine ?
  • quelle est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ?
  • ce domaine est-il référencé dans d'autres banques de domaines ? Si oui, lesquelles et avec quel numéro d'accession ?
  • aller sur le lien db_xref vers UniProt O42830 :

- à quelle section de UniProt appartient cette séquence ?
- que constatez-vous par rapport à la fiche GenPept ?
- quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés. L'annotation GO est-elle dans GenPept ?

EXERCICE 3 : Quelques exemples de recherches avancées sur Uniprot

1/ Chercher les séquences protéiques d'insuline chez le chien :

  • combien sont référencées dans UniProt/SwissProt ?
  • combien dans trEMBL ?
  • afficher les séquences au format FASTA

2/ Sur le site d'UniProt, trouver le nombre total de séquences dans trEMBL

3/ Toujours sur UniProt, chercher des séquences protéiques de dinosaures

4/ Trouver le nombre de séquences de trEMBL avec des preuves au niveau protéique, chez des organismes eucaryotes n'appartenant pas aux champignons.

  • combien sont transmembranaires ?

EXERCICE 4 : Recherche dans des banques spécialisées

1/ Allez sur le site ARAPORT

  • qu'est-ce qu'ARAPORT ?
  • Allez sur JBROWSE : utilisez le zoom pour afficher des gènes sur une région. Demandez à voir les alignements avec EST/Full length cDNAs
  • Allez dans THALEMINE : dans l'onglet Regions, chercher les CDS du chromosome 4 entre la position 20 000 et 60 000

2/ Recherche dans les banques de domaines :

  • interrogez PFAM par mots-clés pour chercher les domaines cytochrome b5
  • récupérez la séquence P00174 au format FASTA (sur UniProt ou au NCBI).
  • utilisez InterProScan à l'EBI (Services => Proteins => InterProScan) pour chercher des domaines connus sur cette séquence