InfoBio TD Sequences et banques de donnees
From silico.biotoul.fr
Quelques ressources disponibles
Vous allez utiliser le site du NCBI. Ce portail évolue plus ou moins souvent à mesure que les données et méthodes sont disponibles ainsi que les technologies Web.
Ce site regroupe des banques de données publiques (ex: banques de séquences nucléiques ou protéiques, banques de structures, ...), et met à disposition des outils mettant en oeuvre des méthodes bioformatiques (recherche de séquences par similarité, ...). Nous allons dans un premier temps nous intéresser aux banques mises à disposition.
Un moteur de recherche sur l'ensemble des banques disponibles est disponible : http://www.ncbi.nlm.nih.gov/gquery
Parmi celles disponibles, remarquez les suivantes :
- PubMed
- OMIM
- Nucleotide
- Genome
- dbVar
- SNP
- Taxonomy
- Gene
- GEO
- Conserved Domains
- Protein
- Structure
A quoi correspondent ces banques ?
On s'intéresse au génome humain (qui a été publié en 2001).
Dans quelle(s) banque(s) effectuer des recherches pour connaître
- sa taille
- la séquence des chromosomes
- le nombre de gènes
- le nombre de protéines
Retrouvez le dernier assemblage des différentes séquences obtenues publié par le GRC (Genome Reference Consortium). De quand date-t-il ?
- Quelle est la taille du génome humain ?
- Quelle est l'unité de mesure utilisée ?
- Combien y a-t-il de chromosomes chez cette espèce ?
- Quelle est la lignée pour cet organisme (au delà de genre espèce) ? l'identifiant taxonomique de l'espèce ? le code génétique utilisé ? le codon initiateur de la traduction ?
- Quelle est la taille du chromosome 7 ? Combien arbore-t-il de gènes ? de protéines ? Comment expliquer la différence ?
Suivez le lien pour aller sur la fiche de la séquence du chromosome 7.
- Comment s'organise cette fiche ?
- Dans quel journal est paru le premier article référencé sur la fiche ?
- Sous quel numéro cet article est-il référencé dans PubMed ?
- Est-ce que la séquence complète du chromosome est disponible ? Qu'est-ce qu'un contig ? à quelle version en est-on ?
- En suivant le lien à droite (Related inforation) vers Gene, combien de gènes seraient sur le chromosome 7 ? Cela correspond-il à ce que vous aviez noté précédemment ?
Nous allons nous intéresser à la mucoviscidose (mucoviscidosis) chez l'humain.
Dans quelle banque effectuer une recherche pour avoir des informations sur cette maladie génétique ?
Retrouvez la fiche correspondante.
- Quelle est l'identifiant de cette maladie ?
- Quelle(s) région(s) chromosomique(s) lui sont associées ?
- Quels sont les informations cliniques disponibles ?
- Quels gènes sont associés à cette maladie ?
- Comment est transmise cette maladie ?
- Quelle est sa prévalence ?
- Existe-t-il des modèles animaux pour cette maladie ?
- Y a-t-il des articles scientifiques relatifs à cette maladie ? combien sont référencés ?
A partir du menu de droite dans la section External links for entry, suivez le lien vers Protein.
- Sur quelle banque arrivez-vous ?
- Quelle est son identifiant dans cette banque ?
- Faire afficher la fiche au format texte ?
- Comment s'organise cette fiche ?
- A quoi correspondent les lignes CC, DR, FT, SQ ?
- Revenez à l'affichage précédent.
- Quelles sont les fonctions moléculaires connues de cette protéine ? Comment sont-elles référencées ?
- Est-ce que cette protéine est connue pour interagir avec d'autres ?
- Suivez le lien allant vers la banque de données STRING. A quoi correspondent les interactions affichées ?
- Utilisez les vues Occurence, Coexpression et Database. Affichez les information concernant KEGG et suivez le lien link out KEGG. Sur quel type de carte arrivez-vous ?
- Sur ce site, naviguez pour visualiser la voie métabolique de la glycolyse.
- Quelle est la formule du phosphoenol-pyruvate ?
- A quoi correspond le code 2.7.1.40 ?
- Quelle(s) enzyme(s) chez l'homme catalyse(nt) la réaction phosphoenol-pyruvate -> pyruvate ?
- Revenez sur la fiche de la protéine. Quelle est sa taille ? Quelle est l'unité de mesure utilisée ?
- Retrouvez la séquence de l'ARNm correspondant. Quel est son identifiant ? Sa taille ?
- Affichez sa séquence au format FASTA.
- Combien de domaines protéiques arbore cette séquence ?
- Affichez l'architecture en domaines de cette séquence en utilisant InterPro.
- Affichez les informations sur le domaine ATPase. Affichez les informations provenant de la banque de données SMART.
- Ce domaine est-il présent dans beaucoup de protéines ?
Quantité de données disponibles
- Trouvez le site Genomes Online Database. A partir de celui-ci, déterminez combien de génomes complets sont disponibles ; côté procaryote ? côté eucaryote ?
- A partir de ce que vous avez vu au cours de la séance, déterminez le nombre de séquences nucléiques actuellement disponibles ainsi que le nombre de séquences protéiques.
- Chaque année la revue scientifique Nucleic Acids Research édite un numéro spécial présentant une sélection de banques de données et met à disposition une base de données de banques de données ! Retrouvez combien de banques sont recensées.
Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu
1°) Récupérez la séquence Q6Q475
- de quelle type de séquence s'agit-il ?
- à quel organisme appartient-elle ?
- quelle est la fonction de Q6Q475 ?
- dans quelle banque cette séquence est-elle déposée ?
- retrouvez cette séquence sur le site UniProt.
- retrouvez la séquence nucléique codant cette protéine.
- affichez la séquence au format FASTA.
- à l'aide des outils fournis dans la suite EMBOSS, faites une traduction automatique de la séquence nucléique en séquence protéique.
- faites l'opération inverse : de la séquence protéique à la séquence nucléique.
- comparez la séquence nucléique obtenue à l'étape précédente avec la séquence nucléique originale. Observez-vous des différences ?