silico.biotoul.fr
 

Bioanalyse TD Interrogation des banques de donnees

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(Exercice 1 : Recherche dans les banques via l'utilisation de mots clés)
(Exercice 1 : Recherche dans les banques via l'utilisation de mots clés)
Line 22: Line 22:
* les séquences protéiques de ''Phytophthora parasitica'' correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux).  
* les séquences protéiques de ''Phytophthora parasitica'' correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux).  
-
Pour cela utiliser soit directement ENTREZ, soit sur le site du NCBI sélectionnez les banques "protéines", puis l'option '''''Advanced search''''' et le bouton '''Preview''', en précisant les champs, Organism, Title... à l'aide de l'outil '''Search builder''' et conjuguer vos requêtes. L'historique de vos requêtes est disponible dans la section ''History''.
+
Pour cela utiliser ENTREZ, et si vous ne voulez rechercher que dans la banque protéique, cliquer sur Protein, puis utiliser l'option '''''Advanced search''''' et le bouton '''Preview''', en précisant les champs, Organism, Title... à l'aide de l'outil '''Search builder''' et conjuguer vos requêtes. L'historique de vos requêtes est disponible dans la section ''History''.
''NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...''
''NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...''

Revision as of 14:09, 22 January 2015

Contents

Tutorial d'Initiation à la BioAnalyse

Introduction

Ce TD a pour but de vous familiariser avec la recherche d'informations scientifiques disponibles dans les banques de données bibliographiques, biologiques ou encore de séquences.

Ci-dessous une sélection des sites Internet qui vous seront nécessaires au cours des TD:

Exercice 1 : Recherche dans les banques via l'utilisation de mots clés

Deux outils pour la recherche de Séquences

NB: Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens (AND, OR, NOT)

1°) Sur le serveur du NCBI, identifiez:

  • toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre), combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux).

Pour cela utiliser ENTREZ, et si vous ne voulez rechercher que dans la banque protéique, cliquer sur Protein, puis utiliser l'option Advanced search et le bouton Preview, en précisant les champs, Organism, Title... à l'aide de l'outil Search builder et conjuguer vos requêtes. L'historique de vos requêtes est disponible dans la section History.

NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...

On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • comment s'organise cette fiche ?
  • quel est le nom de cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?
  • de combien d'acides aminés est composée cette protéine ?
  • cette protéine est-elle sécrétée ?

On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

  • à quoi correspondent ces différentes références croisées ?
  • quels domaines sont présent dans la protéine ?
  • quel est la fonction du domaine "IPR00254" ? est-il spécifique des oomycètes/champignons ou tout autre espèce ?
  • ce domaine est-il référencé dans d'autres banques de domaine ? Si oui, lesquelles et sous quelle nomenclature ?

2°) Sur le serveur de l'EBI, trouvez SRS

2 types de recherche possible dans SRS, "Quick Search " et "Search"

Identifiez :

  • en utilisant Quick Search, les séquences PROTEIQUES de Phytophthora
  • en utilisant les onglets de SRS (Library Page puis Query Form puis Results), les séquences de Phytophthora codant des éliciteurs présentant une activité lectine, contenues dans la banque Uniprot/TrEMBL uniquement

On s'intéresse maintenant à O42830

  • ouvrir la fiche TrEMBL de O42830 (Colonne Accession). Que constatez-vous par rapport à la fiche GenPept ?
  • à quoi correspond le lien GO:0030248 ?

Exercice 2 : Recherche dans les banques via l'utilisation d'une séquence connue

1°) Récupérez la séquence Q6Q475

  • de quelle type de séquence s'agit-il ?
  • à quel organisme appartient-elle ?
  • quelle est la fonction de Q6Q475 ?
  • dans quelle banque cette séquence est-elle déposée ?

Exercice 3 : Interrogation de banques spécialisées par utilisation de mots clés ou séquences connues

1°) Allez sur le site de la banque spécialisée COGEME

  • a quel type de banque appartient COGEME ?
  • trouvez le nombre de séquences correspondant à des endoglucanases du champignon pathogène du riz, Magnaporthe grisea
  • qu'est ce qu'un contig ?
  • de combien d'EST est constituée le contig MagCon[10456a] ?
  • afficher au format FASTA l'ensemble des endoglucanases de M. grisea

2°) Allez sur le site du JCVI

  • qu'est-ce que le JCVI ?
  • quelles banques de séquences concernant les végétaux sont hébergées au JCVI ?
  • identifiez les séquences de riz codant des glycosyl hydrolases ?

Exercice 4 : Recherche dans les banques de "connaissances"

Nous prendrons comme fil conducteur, l'ataxie de Friedreich, maladie génétique.

1°) Utiliser le moteur de recherche Google avec les mots clefs ataxie de Friedreich.

Refaire la même opération en passant à l'anglais : Friedreich ataxia

Sur quels types de sites tombez-vous essentiellement ?

2°) Consultation de la banque OMIM (Online Mendelian Inheritance in Man) localisée sur le serveur du NCBI.

A partir des informations qui vous sont fournies, répondre aux questions suivantes:

  • comment est hérité la maladie ?
  • quelle est la fréquence de la maladie dans la population européenne?
  • cette fréquence est-elle la même pour toutes les populations ?
  • sur quel chromosome a été identifié le locus FRDA
  • combien de locus sont impliqués dans la maladie ?
  • quelle est la fonction de la protéine pour laquelle code le gène FXN ?
  • combien d'exons contient ce gène ?
  • existe-t-il plusieurs isoformes de la protéine ?
  • connait-on les évènements mutationnels qui conduisent à la maladie ? Si oui, quels sont-ils ?

3°) Recherche bibliographique avec PubMed

Toujours sur le serveur du NCBI, interroger la banque PubMed pour trouver les premières publications relatives à la localisation chromosomique de la maladie. Essayer dans un premier temps les mots clefs Friedreich ataxia. Conclusion ?

Pour restreindre la recherche, déterminer une liste de mots clefs qui vous semble pertinente. Ensuite, aller dans Preview/index. Restreindre la recherche à Title/Abstract et combiner ces différents mots clefs avec les opérateurs logiques qui vous sont proposés. Pour connaître le nombre de réponses à la requête, cliquer sur Preview. Si ce nombre reste encore élevé, revoir les mots clefs. Sinon, rechercher dans les réponses.


4°) Utilisation de ressources sur le génome humain

Une autre façon de trouver la localisation du gène impliqué dans la maladie est d'utiliser Map Viewer (toujours sur le serveur du NCBI). Faire cette recherche sur tous les chromosomes. Conclusion ?

Dans des études précédentes, une région d'ADN susceptible de porter le(s) gène(s) impliqué(s) dans la maladie avait été décrite comme ayant l'organisation en gènes suivante :

------->  <---        <--------      <---  <--   <---------  
X11       X123          ZO2          X25   PKA     STM7

Vérifier que le gène impliqué correspond à un des gènes décrit dans cette zone. Comparer la zone d'ADN donnée ci-dessus avec celle que vous obtenez avec Map Viewer. Conclusion ?

Puis lire la fiche GenBank correspondant à la séquence génomique (dl). Noter les positions du premier intron. Pour cela il faudra changer le champ Sequence Format en GenBank.

Récupérer la séquence au format Fasta correspondant à l'ARNm de l'isoforme 1 de la frataxin et celles correspondant aux deux isoformes de la protéine. Pour obtenir la séquence en format Fasta, quand vous avez atteint la fiche de la séquence, dans le menu déroulant de Display settings, sélectionner FASTA.