silico.biotoul.fr
 

TD1 Bioanalyse

From silico.biotoul.fr

Jump to: navigation, search

Contents

OBJECTIFS

 - Etre capable de retrouver une séquence dont on connait le numéro d'accession dans sa banque
 - Savoir comment s'organisent les fiches des séquences, et où y chercher les informations
 - Etre capable de trouver une ou des séquences à l'aide de mots clés ciblant des champs spécifiques
 - Naviguer entre les banques, changer de format, télécharger des séquences

EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques

1/ Cherchez la séquence P01308 dans UniProt

  • De quelle protéine s'agit-il ? chez quel organisme ?
  • Quelle est la taille de cette séquence ?
  • Que sont les "VARIANT" ?
  • Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
  • Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et regarder Ancestor Chart

Faire afficher le format UniProtKB en cliquant sur Download => Text en haut de la page

2/ Sur le site du NCBI : chercher (via ENTREZ) la même séquence.

  • Quels sont les résultats ?
  • Cliquez sur Protein : la séquence est ici au format GenPept

Faire afficher le format 'FASTA' de la séquence.

  • Revenez aux résultats et cliquer sur Gene :

- Regardez l'entrée INS, en particulier la partie NCBI Reference Sequences : combien de variants d'épissage ? et dans Related Sequences : combien d'ARNm ?
- Regardez la séquence génomique RefSeq NG_007114 (format Genbank) : combien d'exons composent ce gène ? combien constituent la séquence codante ?

EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés

1/ Sur le serveur du NCBI, identifiez :

  • toutes les séquences de Phytophthora (oomycète, parasite de la pomme de terre) : combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux)

Pour faire cela, vous utilisez ENTREZ. Si vous ne voulez rechercher que dans la banque protéique, cliquez sur Protein, puis utilisez l'option Advanced. A l'aide de l'outil Search builder précisez les champs (Organism, Title...) et conjuguez vos requêtes. Par défaut lorsque plusieurs mots clés sont utilisés c'est l'opérateur AND qui s'applique entre les mots. L'historique de vos requêtes est disponible en dessous et vous pouvez combiner des résultats de requêtes précédentes avec les mêmes opérateurs AND, OR et NOT.

NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...

2/ On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • quel est le nom de cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?
  • de combien d'acides aminés est composée cette protéine ?


3/ On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

  • à quoi correspondent ces différentes références croisées ?
  • quels domaines sont présents dans la protéine ?
  • quelle est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ?
  • Dans quelles banques de domaines est référencé ce domaine ? avec quels numéros d'accession ?
  • aller sur le lien db_xref vers UniProt O42830 :

- à quelle section de UniProt appartient cette séquence ?
- quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés. L'annotation GO est-elle dans GenPept ?

EXERCICE 3 : Quelques exemples de recherches avancées sur Uniprot

1/ Combien y a-t-il de séquences dans UniProt-SwissProt et combien dans UniProt-trEMBL ?

2/ Cherchez les séquences protéiques d'insuline chez le chien :

  • combien sont référencées dans UniProt/SwissProt ?
  • combien dans trEMBL ?
  • afficher les séquences au format FASTA

3/ Toujours sur UniProt, cherchez des séquences protéiques de dinosaures

4/ Trouvez le nombre de séquences de trEMBL avec des preuves au niveau protéique, chez des organismes eucaryotes n'appartenant pas aux champignons.

  • combien sont transmembranaires ? (choisir "Any automatic assertion")

EXERCICE 4 : Recherche dans des banques spécialisées

1/ Navigation sur un génome avec GDV

  • regardez le génome humain en cliquant à droite sur Browse genome : déplacez-vous, zoomez, dé-zoomez...
  • cherchez le gène INS : regardez la structure du gène. Cliquez sur INS[+8] pour faire afficher les variants et les protéines
  • modifiez l'affichage : dans File:roue.jpg => configure tracks => Sequence => cochez Six frame translation, et Pst1 Recognition sites

2/ Recherches dans les banques de domaines :

  • interrogez InterPro par mots-clés (Search by text) pour chercher le domaine cytochrome b5
  • interrogez maintenant InterPro par séquence avec le format FASTA de la séquence P00174 (à chercher sur UniProt ou au NCBI).

(si la recherche met trop longtemps, utilisez Search by text avec P00174)