silico.biotoul.fr
 

InfoBio TD Sequences et banques de donnees

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m
m (Quelques ressources disponibles)
Line 41: Line 41:
* le nombre de gènes
* le nombre de gènes
* le nombre de protéines
* le nombre de protéines
 +
 +
'''Retrouvez''' le dernier assemblage des différentes séquences obtenues publié par le GRC (Genome Reference Consortium). De quand date-t-il ?
 +
 +
* '''Quelle est la taille du génome humain ?'''
 +
* Quelle est l'unité de mesure utilisée ?
 +
* Combien y a-t-il de chromosomes chez cette espèce ?
 +
 +
* Quelle est la lignée pour cet organisme (au delà de genre espèce) ? l'identifiant taxonomique de l'espèce ? le code génétique utilisé ? le codon initiateur de la traduction ?
 +
 +
* Quelle est la taille du chromosome 7 ? Combien arbore-t-il de gènes ? de protéines ? Comment expliquer la différence ?
 +
 +
'''Suivez''' le lien pour aller sur la fiche de la séquence du chromosome 7.
 +
* Comment s'organise cette fiche ?
 +
* Dans quel journal est paru le premier article référencé sur la fiche ?
 +
* Sous quel numéro cet article est-il référencé dans PubMed ?
 +
* Est-ce que la séquence complète du chromosome est disponible ? Qu'est-ce qu'un ''contig'' ? à quelle version en est-on ?
 +
 +
* En suivant le lien à droite (''Related inforation'') vers Gene, combien de gènes seraient sur le chromosome 7 ? Cela correspond-il à ce que vous aviez noté précédemment ?
 +
Line 47: Line 66:
'''''Dans quelle banque effectuer une recherche pour avoir des informations sur cette maladie génétique ?'''''
'''''Dans quelle banque effectuer une recherche pour avoir des informations sur cette maladie génétique ?'''''
 +
'''Retrouvez''' la fiche correspondante.
 +
* Quelle est l'identifiant de cette maladie ?
 +
* Quelle(s) région(s) chromosomique(s) lui sont associées ?
 +
* Quels sont les informations cliniques disponibles ?
 +
* Quels gènes sont associés à cette maladie ?
 +
* Comment est transmise cette maladie ?
 +
* Quelle est sa prévalence ?
 +
* Existe-t-il des modèles animaux pour cette maladie ?
 +
* Y a-t-il des articles scientifiques relatifs à cette maladie ? combien sont référencés ?
 +
 +
A partir du menu de droite dans la section ''External links for entry'', suivez le lien vers ''Protein''.
 +
* Sur quelle banque arrivez-vous ?
 +
* Quelle est son identifiant dans cette banque ?
 +
* Faire afficher la fiche au format texte ?
 +
* Comment s'organise cette fiche ?
 +
* A quoi correspondent les lignes CC, DR, FT, SQ ?
 +
* Revenez à l'affichage précédent.
 +
* Quelles sont les fonctions moléculaires connues de cette protéine ? Comment sont-elles référencées ?
 +
* Est-ce que cette protéine est connue pour interagir avec d'autres ?
 +
* Suivez le lien allant vers la banque de données STRING. A quoi correspondent les interactions affichées ?
 +
* Utilisez les vues ''Occurence'', ''Coexpression'' et ''Database''. Affichez les information concernant KEGG et suivez le lien ''link out KEGG''. Sur quel type de carte arrivez-vous ?
 +
* Sur ce site, naviguez pour visualiser la voie métabolique de la ''glycolyse''.
 +
* Quelle est la formule du phosphoenol-pyruvate ?
 +
* A quoi correspond le code 2.7.1.40 ?
 +
* Quelle(s) enzyme(s) chez l'homme catalyse(nt) la réaction phosphoenol-pyruvate -> pyruvate ?
 +
* Revenez sur la fiche de la protéine. Quelle est sa taille ? Quelle est l'unité de mesure utilisée ?
 +
* Retrouvez la séquence de  l'ARNm correspondant. Quel est son identifiant ? Sa taille ?
 +
* Affichez sa séquence au format FASTA.
 +
* Combien de domaines protéiques arbore cette séquence ?
 +
* Affichez l'architecture en domaines de cette séquence en utilisant InterPro.
 +
* Affichez les informations sur le domaine ATPase. Affichez les informations provenant de la banque de données SMART.
 +
* Ce domaine est-il présent dans beaucoup de protéines ?
= Recherche dans les banques ''via'' l'utilisation de mots-clés =
= Recherche dans les banques ''via'' l'utilisation de mots-clés =

Revision as of 14:09, 5 February 2015


Contents

Quelques ressources disponibles

Vous allez utiliser le site du NCBI. Ce portail évolue plus ou moins souvent à mesure que les données et méthodes sont disponibles ainsi que les technologies Web.

Ce site regroupe des banques de données publiques (ex: banques de séquences nucléiques ou protéiques, banques de structures, ...), et met à disposition des outils mettant en oeuvre des méthodes bioformatiques (recherche de séquences par similarité, ...). Nous allons dans un premier temps nous intéresser aux banques mises à disposition.

Un moteur de recherche sur l'ensemble des banques disponibles est disponible : http://www.ncbi.nlm.nih.gov/gquery

Parmi celles disponibles, remarquez les suivantes :

  • PubMed
  • OMIM
  • Nucleotide
  • Genome
  • dbVar
  • SNP
  • Taxonomy
  • Gene
  • GEO
  • Conserved Domains
  • Protein
  • Structure

A quoi correspondent ces banques ?

On s'intéresse au génome humain (qui a été publié en 2001).

Dans quelle(s) banque(s) effectuer des recherches pour connaître

  • sa taille
  • la séquence des chromosomes
  • le nombre de gènes
  • le nombre de protéines

Retrouvez le dernier assemblage des différentes séquences obtenues publié par le GRC (Genome Reference Consortium). De quand date-t-il ?

  • Quelle est la taille du génome humain ?
  • Quelle est l'unité de mesure utilisée ?
  • Combien y a-t-il de chromosomes chez cette espèce ?
  • Quelle est la lignée pour cet organisme (au delà de genre espèce) ? l'identifiant taxonomique de l'espèce ? le code génétique utilisé ? le codon initiateur de la traduction ?
  • Quelle est la taille du chromosome 7 ? Combien arbore-t-il de gènes ? de protéines ? Comment expliquer la différence ?

Suivez le lien pour aller sur la fiche de la séquence du chromosome 7.

  • Comment s'organise cette fiche ?
  • Dans quel journal est paru le premier article référencé sur la fiche ?
  • Sous quel numéro cet article est-il référencé dans PubMed ?
  • Est-ce que la séquence complète du chromosome est disponible ? Qu'est-ce qu'un contig ? à quelle version en est-on ?
  • En suivant le lien à droite (Related inforation) vers Gene, combien de gènes seraient sur le chromosome 7 ? Cela correspond-il à ce que vous aviez noté précédemment ?


Nous allons nous intéresser à la mucoviscidose (mucoviscidosis) chez l'humain.

Dans quelle banque effectuer une recherche pour avoir des informations sur cette maladie génétique ?

Retrouvez la fiche correspondante.

  • Quelle est l'identifiant de cette maladie ?
  • Quelle(s) région(s) chromosomique(s) lui sont associées ?
  • Quels sont les informations cliniques disponibles ?
  • Quels gènes sont associés à cette maladie ?
  • Comment est transmise cette maladie ?
  • Quelle est sa prévalence ?
  • Existe-t-il des modèles animaux pour cette maladie ?
  • Y a-t-il des articles scientifiques relatifs à cette maladie ? combien sont référencés ?

A partir du menu de droite dans la section External links for entry, suivez le lien vers Protein.

  • Sur quelle banque arrivez-vous ?
  • Quelle est son identifiant dans cette banque ?
  • Faire afficher la fiche au format texte ?
  • Comment s'organise cette fiche ?
  • A quoi correspondent les lignes CC, DR, FT, SQ ?
  • Revenez à l'affichage précédent.
  • Quelles sont les fonctions moléculaires connues de cette protéine ? Comment sont-elles référencées ?
  • Est-ce que cette protéine est connue pour interagir avec d'autres ?
  • Suivez le lien allant vers la banque de données STRING. A quoi correspondent les interactions affichées ?
  • Utilisez les vues Occurence, Coexpression et Database. Affichez les information concernant KEGG et suivez le lien link out KEGG. Sur quel type de carte arrivez-vous ?
  • Sur ce site, naviguez pour visualiser la voie métabolique de la glycolyse.
  • Quelle est la formule du phosphoenol-pyruvate ?
  • A quoi correspond le code 2.7.1.40 ?
  • Quelle(s) enzyme(s) chez l'homme catalyse(nt) la réaction phosphoenol-pyruvate -> pyruvate ?
  • Revenez sur la fiche de la protéine. Quelle est sa taille ? Quelle est l'unité de mesure utilisée ?
  • Retrouvez la séquence de l'ARNm correspondant. Quel est son identifiant ? Sa taille ?
  • Affichez sa séquence au format FASTA.
  • Combien de domaines protéiques arbore cette séquence ?
  • Affichez l'architecture en domaines de cette séquence en utilisant InterPro.
  • Affichez les informations sur le domaine ATPase. Affichez les informations provenant de la banque de données SMART.
  • Ce domaine est-il présent dans beaucoup de protéines ?

Recherche dans les banques via l'utilisation de mots-clés

Remarque : Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens (AND, OR, NOT)

1°) Sur le serveur du NCBI, identifiez:

  • toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre), combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux).

Pour cela utiliser soit directement ENTREZ, soit sur le site du NCBI sélectionnez les banques "protéines", puis l'option Advanced search et le bouton Preview, en précisant les champs, Organism, Title... à l'aide de l'outil Search builder et conjuguer vos requêtes. L'historique de vos requêtes est disponible dans la section History.

NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...

On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • comment s'organise cette fiche ?
  • quel est le nom de cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?
  • de combien d'acides aminés est composée cette protéine ?
  • cette protéine est-elle sécrétée ?


On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

  • à quoi correspondent ces différentes références croisées ?
  • quels domaines sont présent dans la protéine ?
  • quel est la fonction du domaine "IPR00254" ? est-il spécifique des oomycètes/champignons ou tout autre espèce ?
  • ce domaine est-il référencé dans d'autres banques de domaine ? Si oui, lesquelles et sous quelle nomenclature ?
  • trouvez la fiche de la séquence nucléique codant pour cette protéine. Quelles différences observez vous par rapport à la fiche de la protéine ?

2°) Sur le serveur de l'EBI, trouvez SRS

2 types de recherche possible dans SRS, "Quick Search " et "Search"

Identifiez :

  • en utilisant Quick Search, les séquences PROTEIQUES de Phytophthora
  • en utilisant les onglets de SRS (Library Page puis Query Form puis Results), les séquences de Phytophthora codant des éliciteurs présentant une activité lectine, contenues dans la banque Uniprot/TrEMBL uniquement

On s'intéresse maintenant à O42830

  • ouvrir la fiche TrEMBL de O42830 (Colonne Accession). Que constatez-vous par rapport à la fiche GenPept ? Utilisez notamment les liens Text entry, SwissEntry et UniProtXML.
  • à quoi correspond le lien GO:0030248 ?


Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu

1°) Récupérez la séquence Q6Q475

  • de quelle type de séquence s'agit-il ?
  • à quel organisme appartient-elle ?
  • quelle est la fonction de Q6Q475 ?
  • dans quelle banque cette séquence est-elle déposée ?
  • retrouvez cette séquence sur le site UniProt.
  • retrouvez la séquence nucléique codant cette protéine.
  • affichez la séquence au format FASTA.
  • à l'aide des outils fournis dans la suite EMBOSS, faites une traduction automatique de la séquence nucléique en séquence protéique.
  • faites l'opération inverse : de la séquence protéique à la séquence nucléique.
  • comparez la séquence nucléique obtenue à l'étape précédente avec la séquence nucléique originale. Observez-vous des différences ?

Quantité de données disponibles

  • Trouvez le site Genomes Online Database. A partir de celui-ci, déterminez combien de génomes complets sont disponibles ; côté procaryote ? côté eucaryote ?
  • A partir de ce que vous avez vu au cours de la séance, déterminez le nombre de séquences nucléiques actuellement disponibles ainsi que le nombre de séquences protéiques.
  • Chaque année la revue scientifique Nucleic Acids Research édite un numéro spécial présentant une sélection de banques de données et met à disposition une base de données de banques de données ! Retrouvez combien de banques sont recensées.