silico.biotoul.fr
 

InfoBio TD Sequences et banques de donnees

From silico.biotoul.fr

Jump to: navigation, search


Quelques ressources disponibles

Vous allez utiliser le site du NCBI. Ce portail évolue plus ou moins souvent à mesure que les données et méthodes sont disponibles ainsi que les technologies Web.

Ce site regroupe des banques de données publiques (ex: banques de séquences nucléiques ou protéiques, banques de structures, ...), et met à disposition des outils mettant en oeuvre des méthodes bioformatiques (recherche de séquences par similarité, ...). Nous allons dans un premier temps nous intéresser aux banques mises à disposition.

Un moteur de recherche sur l'ensemble des banques disponibles est disponible : http://www.ncbi.nlm.nih.gov/gquery

Parmi celles disponibles, remarquez les suivantes :

  • PubMed
  • OMIM
  • Nucleotide
  • Genome
  • dbVar
  • SNP
  • Taxonomy
  • Gene
  • GEO
  • Conserved Domains
  • Protein
  • Structure

A quoi correspondent ces banques ?

On s'intéresse au génome humain (qui a été publié en 2001).

Dans quelle(s) banque(s) effectuer des recherches pour connaître

  • sa taille
  • la séquence des chromosomes
  • le nombre de gènes
  • le nombre de protéines

Retrouvez le dernier assemblage des différentes séquences obtenues publié par le GRC (Genome Reference Consortium). De quand date-t-il ?

  • Quelle est la taille du génome humain ?
  • Quelle est l'unité de mesure utilisée ?
  • Combien y a-t-il de chromosomes chez cette espèce ?
  • Quelle est la lignée pour cet organisme (au delà de genre espèce) ? l'identifiant taxonomique de l'espèce ? le code génétique utilisé ? le codon initiateur de la traduction ?
  • Quelle est la taille du chromosome 7 ? Combien arbore-t-il de gènes ? de protéines ? Comment expliquer la différence ?

Suivez le lien pour aller sur la fiche de la séquence du chromosome 7.

  • Comment s'organise cette fiche ?
  • Dans quel journal est paru le premier article référencé sur la fiche ?
  • Sous quel numéro cet article est-il référencé dans PubMed ?
  • Est-ce que la séquence complète du chromosome est disponible ? Qu'est-ce qu'un contig ? à quelle version en est-on ?
  • En suivant le lien à droite (Related inforation) vers Gene, combien de gènes seraient sur le chromosome 7 ? Cela correspond-il à ce que vous aviez noté précédemment ?


Nous allons nous intéresser à la mucoviscidose (mucoviscidosis) chez l'humain.

Dans quelle banque effectuer une recherche pour avoir des informations sur cette maladie génétique ?

Retrouvez la fiche correspondante.

  • Quelle est l'identifiant de cette maladie ?
  • Quelle(s) région(s) chromosomique(s) lui sont associées ?
  • Quels sont les informations cliniques disponibles ?
  • Quels gènes sont associés à cette maladie ?
  • Comment est transmise cette maladie ?
  • Quelle est sa prévalence ?
  • Existe-t-il des modèles animaux pour cette maladie ?
  • Y a-t-il des articles scientifiques relatifs à cette maladie ? combien sont référencés ?

A partir du menu de droite dans la section External links for entry, suivez le lien vers Protein.

  • Sur quelle banque arrivez-vous ?
  • Quelle est son identifiant dans cette banque ?
  • Faire afficher la fiche au format texte ?
  • Comment s'organise cette fiche ?
  • A quoi correspondent les lignes CC, DR, FT, SQ ?
  • Revenez à l'affichage précédent.
  • Quelles sont les fonctions moléculaires connues de cette protéine ? Comment sont-elles référencées ?
  • Est-ce que cette protéine est connue pour interagir avec d'autres ?
  • Suivez le lien allant vers la banque de données STRING. A quoi correspondent les interactions affichées ?
  • Utilisez les vues Occurence, Coexpression et Database. Affichez les information concernant KEGG et suivez le lien link out KEGG. Sur quel type de carte arrivez-vous ?
  • Sur ce site, naviguez pour visualiser la voie métabolique de la glycolyse.
  • Quelle est la formule du phosphoenol-pyruvate ?
  • A quoi correspond le code 2.7.1.40 ?
  • Quelle(s) enzyme(s) chez l'homme catalyse(nt) la réaction phosphoenol-pyruvate -> pyruvate ?
  • Revenez sur la fiche de la protéine. Quelle est sa taille ? Quelle est l'unité de mesure utilisée ?
  • Retrouvez la séquence de l'ARNm correspondant. Quel est son identifiant ? Sa taille ?
  • Affichez sa séquence au format FASTA.
  • Combien de domaines protéiques arbore cette séquence ?
  • Affichez l'architecture en domaines de cette séquence en utilisant InterPro.
  • Affichez les informations sur le domaine ATPase. Affichez les informations provenant de la banque de données SMART.
  • Ce domaine est-il présent dans beaucoup de protéines ?


Quantité de données disponibles

  • Trouvez le site Genomes Online Database. A partir de celui-ci, déterminez combien de génomes complets sont disponibles ; côté procaryote ? côté eucaryote ?
  • A partir de ce que vous avez vu au cours de la séance, déterminez le nombre de séquences nucléiques actuellement disponibles ainsi que le nombre de séquences protéiques.
  • Chaque année la revue scientifique Nucleic Acids Research édite un numéro spécial présentant une sélection de banques de données et met à disposition une base de données de banques de données ! Retrouvez combien de banques sont recensées.


Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu

1°) Récupérez la séquence Q6Q475

  • de quelle type de séquence s'agit-il ?
  • à quel organisme appartient-elle ?
  • quelle est la fonction de Q6Q475 ?
  • dans quelle banque cette séquence est-elle déposée ?
  • retrouvez cette séquence sur le site UniProt.
  • retrouvez la séquence nucléique codant cette protéine.
  • affichez la séquence au format FASTA.
  • à l'aide des outils fournis dans la suite EMBOSS, faites une traduction automatique de la séquence nucléique en séquence protéique.
  • faites l'opération inverse : de la séquence protéique à la séquence nucléique.
  • comparez la séquence nucléique obtenue à l'étape précédente avec la séquence nucléique originale. Observez-vous des différences ?