silico.biotoul.fr
 

TD1 Genome Selection Plantes

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(Exercice 3 : Recherche dans les banques via une séquence (protéique ou nucléique): l'outil BLAST)
(Exercice 3 : Recherche dans les banques via une séquence (protéique ou nucléique): l'outil BLAST)
Line 67: Line 67:
LSTFQQMWIAKAEYDESGPSIVHRKCF
LSTFQQMWIAKAEYDESGPSIVHRKCF
-
Afin de savoir si cette séquence est répertoriée dans les bases de données faites un 'Blast' au NCBI
+
Afin de savoir si cette séquence est répertoriée dans les bases de données faites un [https://blast.ncbi.nlm.nih.gov/Blast.cgi Blast] au NCBI
Interrogez InterPro à [http://www.ebi.ac.uk/ l'EBI] (aller dans Services => Proteins => InterProScan)
Interrogez InterPro à [http://www.ebi.ac.uk/ l'EBI] (aller dans Services => Proteins => InterProScan)

Revision as of 11:36, 28 September 2016

Contents

Objectifs

Ce TD a pour but de vous familiariser avec la recherche d'informations scientifiques disponibles dans les banques de données biologiques (Database)

Globalement les informations sont regroupées dans 2 centres :

  • NCBI National Center for Biotechnology Information (NIH, USA)
  • EBI European Bioinformatics Institute (EMBL, GB)

Exercice 1 : Recherche dans les banques via l'utilisation de mots clés

Sur le serveur du NCBI, identifiez:

  • toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre), combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica pouvant interagir avec la cellulose

Pour cela sur le site du NCBI sélectionnez les banques "protéines", puis dans la barre de requête il est possible de combiner plusieurs termes à l'aide des opérateurs booléens (AND, OR, NOT) puis l'option Advanced (sous la barre de requête) et le bouton Preview, en précisant les champs, Organism, Title... à l'aide de l'outil Search builder et conjuguer vos requêtes. L'historique de vos requêtes est visible.

On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • comment s'organise cette fiche ? (format GenPept)
  • quel est le nom de cette protéine ?
  • quel le nombre d'acides aminés constituant cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?


On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

  • à quoi correspondent les différents liens croisées :

- db_xref="InterPro:IPR000177" - db_xref="GOA:O42830" - db_xref="UniProtKB/TrEMBL:O42830

  • quels domaines protéiques sont présents dans la protéine ?
  • quel est la fonction du domaine "IPR00254" ? est-il spécifique des oomycètes/champignons ou tout autre espèce ?


Nous allons maintenant interroger les banques hébergées à EBI - European Bioinformatics Institute

  • rechercher Uniprot, qu'est ce que Uniprot ?
  • combien de séquences sont référencées dans TrEMBL ?
  • combien de séquences sont référencées dans Uniprot/swissProt ?
  • rechercher la séquence O42830, a quelle section d'Uniprot appartient cette séqunce ?

Exercice 2 : Recherche dans les banques via le numéro d'accession d'une séquence

Récupérez la séquence P07987

  • de quelle type de séquence s'agit-il ?
  • à quel organisme appartient-elle ?
  • quelle est la fonction de P07987  ?
  • dans quelle banque cette séquence est-elle déposée ?
  • afficher la séquence au format fasta
  • cette séquence présente-t-elle des homologues ?
  • indiquez les positions du domaine CBM1

Exercice 3 : Recherche dans les banques via une séquence (protéique ou nucléique): l'outil BLAST

Ci-dessous une séquence protéique inconnue au format FASTA

>sequence_proteique_inconnue_NP_190236.1
MADGEDIQPLVCDNGTGMVKAGFAGDDAPRAVFPSIVGRPRHTGVMVGMGQKDAYVGDEAQSKRGILTLK YPIEHGIVNNWDDMEKIWHHTFYNELRVAPEEHPVLLTEAPLNPKANREKMTQIMFETFNTPAMYVAIQA VLSLYASGRTTGIVLDSGDGVSHTVPIYEGYALPHAILRLDLAGRDLTDHLMKILTERGYSFTTTAEREI VRDMKEKLSYIALDYEQELETSKTSSSVEKSFELPDGQVITIGAERFRCPEVLFQPSMIGMENPGIHETT YNSIMKCDVDIRKDLYGNIVLSGGTTMFGGIGDRMSKEITALAPSSMKIKVVAPPERKYSVWIGGSILAS LSTFQQMWIAKAEYDESGPSIVHRKCF

Afin de savoir si cette séquence est répertoriée dans les bases de données faites un Blast au NCBI

Interrogez InterPro à l'EBI (aller dans Services => Proteins => InterProScan)

  • Regardez les liens vers PFAM (PF) et PROSITE (PS).
  • Comparer les positions des domaines selon les banques.
  • Combien y a-t-il de membres dans cette famille ? Combien d'organismes possèdent ce domaine ?

Ci-dessous une séquence nucléique inconnue au format FASTA

Exercice 4 : Recherche dans des banques de données spécialisées, l'exemple des banques de familles et de domaines protéiques

Les banques de données spécialisées peuvent être dédiées à un organisme (drosophile, arabidopsis...), un type de séquences (nucléique, protéique..)... Ces banques peuvent être interrogées par 'mots clés', 'numero d'accession' ou en utilisant une séquence, comme lors des exercices précédents.

Soit le numero d'accession PF00173 issu de la banque de données PFAM

  • Qu'est ce que PFAM ?
  • A quoi correspond le numero d'accession PF00173 ?
  • Chez combien d'espèces est-il rencontré ?
  • Connait-on la structure 3D de ce domaine protéique ?
  • Ce domaine est-il recensé dans d'autres banques de domaines protéiques ?
  • Sous quel numéro d'accesion de domaine est-il référence dans InterPro ?


Récupérez la séquence P00174 au format FASTA

Interrogez InterProSCAN à l'EBI (aller dans Services => Proteins => InterProScan)

  • Qu'est-ce que InterproSCAN ?
  • Comparer les positions des domaines selon les banques. Pourquoi observez vous des variations ?
  • Cette séquence contient-elle un domaine référence dans PFAM ? si oui quel est son numero d'accession ?