silico.biotoul.fr
 

TD1 Genome Selection Plantes

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(Exercice 2 : Recherche dans les banques via le numéro d'accession d'une séquence)
(Exercice 3 : Interrogation de banque spécialisée, l'exemple des banques de familles et de domaines protéiques)
Line 55: Line 55:
* indiquez les positions du domaine CBM1
* indiquez les positions du domaine CBM1
-
== Exercice 3 : Interrogation de banque spécialisée, l'exemple des banques de familles et de domaines protéiques==  
+
== Exercice 3 : Interrogation des banques de données à l'aide d'une séquence (protéique ou nucléique)==
 +
 
 +
''' Ci-dessous une séquence protéique inconnue au format FASTA'''
 +
 
 +
Interrogez InterPro à [http://www.ebi.ac.uk/ l'EBI] (aller dans Services => Proteins => InterProScan)
 +
* Regardez les liens vers PFAM (PF) et PROSITE (PS).
 +
* Comparer les positions des domaines selon les banques.
 +
* Combien y a-t-il de membres dans cette famille ? Combien d'organismes possèdent ce domaine ?
 +
 
 +
''' Ci-dessous une séquence nucléique inconnue au format FASTA'''
 +
 
 +
 
 +
 
 +
 
 +
== Exercice 4 : Interrogation de banque spécialisée, l'exemple des banques de familles et de domaines protéiques==  
''' Récupérez la séquence P00174 au format FASTA '''
''' Récupérez la séquence P00174 au format FASTA '''

Revision as of 09:33, 28 September 2016

Contents

Objectifs

Ce TD a pour but de vous familiariser avec la recherche d'informations scientifiques disponibles dans les banques de données biologiques (Database)

Globalement les informations sont regroupées dans 2 centres :

  • NCBI National Center for Biotechnology Information (NIH, USA)
  • EBI European Bioinformatics Institute (EMBL, GB)

Exercice 1 : Recherche dans les banques via l'utilisation de mots clés

Sur le serveur du NCBI, identifiez:

  • toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre), combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica pouvant interagir avec la cellulose

Pour cela sur le site du NCBI sélectionnez les banques "protéines", puis dans la barre de requête il est possible de combiner plusieurs termes à l'aide des opérateurs booléens (AND, OR, NOT) puis l'option Advanced (sous la barre de requête) et le bouton Preview, en précisant les champs, Organism, Title... à l'aide de l'outil Search builder et conjuguer vos requêtes. L'historique de vos requêtes est visible.

On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • comment s'organise cette fiche ? (format GenPept)
  • quel est le nom de cette protéine ?
  • quel le nombre d'acides aminés constituant cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?


On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

  • à quoi correspondent les différents liens croisées :

- db_xref="InterPro:IPR000177" - db_xref="GOA:O42830" - db_xref="UniProtKB/TrEMBL:O42830

  • quels domaines protéiques sont présents dans la protéine ?
  • quel est la fonction du domaine "IPR00254" ? est-il spécifique des oomycètes/champignons ou tout autre espèce ?


Nous allons maintenant interroger les banques hébergées à EBI - European Bioinformatics Institute

  • rechercher Uniprot, qu'est ce que Uniprot ?
  • combien de séquences sont référencées dans TrEMBL ?
  • combien de séquences sont référencées dans Uniprot/swissProt ?
  • rechercher la séquence O42830, a quelle section d'Uniprot appartient cette séqunce ?

Exercice 2 : Recherche dans les banques via le numéro d'accession d'une séquence

Récupérez la séquence P07987

  • de quelle type de séquence s'agit-il ?
  • à quel organisme appartient-elle ?
  • quelle est la fonction de P07987  ?
  • dans quelle banque cette séquence est-elle déposée ?
  • afficher la séquence au format fasta
  • cette séquence présente-t-elle des homologues ?
  • indiquez les positions du domaine CBM1

Exercice 3 : Interrogation des banques de données à l'aide d'une séquence (protéique ou nucléique)

Ci-dessous une séquence protéique inconnue au format FASTA

Interrogez InterPro à l'EBI (aller dans Services => Proteins => InterProScan)

  • Regardez les liens vers PFAM (PF) et PROSITE (PS).
  • Comparer les positions des domaines selon les banques.
  • Combien y a-t-il de membres dans cette famille ? Combien d'organismes possèdent ce domaine ?

Ci-dessous une séquence nucléique inconnue au format FASTA



Exercice 4 : Interrogation de banque spécialisée, l'exemple des banques de familles et de domaines protéiques

Récupérez la séquence P00174 au format FASTA

Interrogez InterPro à l'EBI (aller dans Services => Proteins => InterProScan)

  • Regardez les liens vers PFAM (PF) et PROSITE (PS).
  • Comparer les positions des domaines selon les banques.
  • Combien y a-t-il de membres dans cette famille ? Combien d'organismes possèdent ce domaine ?