silico.biotoul.fr
 

Interrogation des banques de données

From silico.biotoul.fr

Jump to: navigation, search

Contents

Introduction

Ce TD a pour but de vous familiariser avec la recherche d'informations scientifiques disponibles dans les banques de données bibliographiques, biologiques ou encore de séquences.

Ci-dessous une sélection des sites Internet qui vous seront nécessaires au cours des TD:

Exercice 1 : Recherche dans les banques via l'utilisation de mots clés

Nous allons utiliser le moteur de recherche du NCBI nommé 'ENTREZ'

Sur le serveur du NCBI, identifiez:

  • toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre), combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica pouvant interagir avec la cellulose

Pour cela sur le site du NCBI sélectionnez les banques "protéines", puis dans la barre de requête il est possible de combiner plusieurs termes à l'aide des opérateurs booléens (AND, OR, NOT) puis l'option Advanced (sous la barre de requête) et le bouton Preview, en précisant les champs, Organism, Title... à l'aide de l'outil Search builder et conjuguer vos requêtes. L'historique de vos requêtes est visible.

Vous pouvez également aller directement sur la page d'accueil du moteur de recherche ENTREZ du NCBI (http://www.ncbi.nlm.nih.gov/Entrez/) et réaliser votre requête.


On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • comment s'organise cette fiche ? (format GenPept)
  • quel est le nom de cette protéine ?
  • quel le nombre d'acides aminés constituant cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?
  • cette protéine est-elle sécrétée ? (adressée dans la paroi du microorganisme et/ou sécrété dans milieu extérieur)


On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

  • à quoi correspondent les différents liens croisées :

- db_xref="InterPro:IPR000177" - db_xref="GOA:O42830" - db_xref="UniProtKB/TrEMBL:O42830

  • quels domaines protéiques sont présent dans la protéine ?
  • quel est la fonction du domaine "IPR00254" ? est-il spécifique des oomycètes/champignons ou tout autre espèce ?
  • ce domaine est-il référencé dans d'autres banques de domaine ? Si oui, lesquelles et sous quelle nomenclature ?


On s'intéresse maintenant à O42830

  • ouvrir la fiche TrEMBL de O42830. Que constatez-vous par rapport à la fiche GenPept ?
  • quel est le numero d'accession de l'ARNm correspondant ?

Exercice 2 : Recherche dans les banques via l'utilisation d'une séquence connue

Récupérez la séquence P07987

  • de quelle type de séquence s'agit-il ?
  • à quel organisme appartient-elle ?
  • quelle est la fonction de P07987  ?
  • dans quelle banque cette séquence est-elle déposée ?
  • afficher la séquence au format fasta
  • cette séquence présente-t-elle des homologues ?
  • indiquez les positions du domaine CBM1 (utiliser la fiche Uniprot
  • la structure 3D de cette protéine est elle connue, si oui quel est le numero d'accession de cette structure ?

Exercice 3 : Interrogation de banques spécialisées par utilisation de mots clés ou séquences connues

1°) Allez sur le site de la banque spécialisée COGEME

  • a quel type de banque appartient COGEME ?
  • trouvez le nombre de séquences correspondant à des endoglucanases du champignon pathogène du riz, Magnaporthe grisea
  • qu'est ce qu'un contig ?
  • de combien d'EST est constituée le contig MagCon[10456a] ?
  • afficher au format FASTA l'ensemble des endoglucanases de M. grisea

2°) Allez sur le site du Broad Institute

  • qu'est-ce que le Broad Institute ?
  • existe-t-il des données sur le champignon Colletotrichum graminicola ?
  • combien de gènes modèles ont été détectés chez C. higginsianum IMI 349063
  • combien de gènes codant le facteur de transcription 'ste12' est détecté dans le génome de C. graminicola ?

Exercice 4 : Recherche dans les banques de "connaissances"

Nous prendrons comme fil conducteur, l'ataxie de Friedreich, maladie génétique.

1°) Utiliser le moteur de recherche Google avec les mots clefs ataxie de Friedreich.

Refaire la même opération en passant à l'anglais : Friedreich ataxia

Sur quels types de sites tombez-vous essentiellement ?

2°) Consultation de la banque OMIM (Online Mendelian Inheritance in Man) localisée sur le serveur du NCBI.

A partir des informations qui vous sont fournies, répondre aux questions suivantes:

  • comment est hérité la maladie ?
  • quelle est la fréquence de la maladie dans la population européenne?
  • cette fréquence est-elle la même pour toutes les populations ?
  • sur quel chromosome a été identifié le locus FRDA
  • combien de locus sont impliqués dans la maladie ?
  • quelle est la fonction de la protéine pour laquelle code le gène FXN ?

Exercice 5 : Interrogation des banques de familles et de domaines protéiques

Récupérez la séquence P00174 au format FASTA

Interrogez InterPro à l'EBI (aller dans Services => Proteins => InterProScan)

  • Regardez les liens vers PFAM (PF) et PROSITE (PS).
  • Comparer les positions des domaines selon les banques.
  • Combien y a-t-il de membres dans cette famille ? Combien d'organismes possèdent ce domaine ?