silico.biotoul.fr
 

InfoBio TD Sequences et banques de donnees

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m
m (Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu)
 
(2 intermediate revisions not shown)
Line 41: Line 41:
* le nombre de gènes
* le nombre de gènes
* le nombre de protéines
* le nombre de protéines
 +
 +
'''Retrouvez''' le dernier assemblage des différentes séquences obtenues publié par le GRC (Genome Reference Consortium). De quand date-t-il ?
 +
 +
* '''Quelle est la taille du génome humain ?'''
 +
* Quelle est l'unité de mesure utilisée ?
 +
* Combien y a-t-il de chromosomes chez cette espèce ?
 +
 +
* Quelle est la lignée pour cet organisme (au delà de genre espèce) ? l'identifiant taxonomique de l'espèce ? le code génétique utilisé ? le codon initiateur de la traduction ?
 +
 +
* Quelle est la taille du chromosome 7 ? Combien arbore-t-il de gènes ? de protéines ? Comment expliquer la différence ?
 +
 +
'''Suivez''' le lien pour aller sur la fiche de la séquence du chromosome 7.
 +
* Comment s'organise cette fiche ?
 +
* Dans quel journal est paru le premier article référencé sur la fiche ?
 +
* Sous quel numéro cet article est-il référencé dans PubMed ?
 +
* Est-ce que la séquence complète du chromosome est disponible ? Qu'est-ce qu'un ''contig'' ? à quelle version en est-on ?
 +
 +
* En suivant le lien à droite (''Related inforation'') vers Gene, combien de gènes seraient sur le chromosome 7 ? Cela correspond-il à ce que vous aviez noté précédemment ?
 +
Line 47: Line 66:
'''''Dans quelle banque effectuer une recherche pour avoir des informations sur cette maladie génétique ?'''''
'''''Dans quelle banque effectuer une recherche pour avoir des informations sur cette maladie génétique ?'''''
 +
'''Retrouvez''' la fiche correspondante.
 +
* Quelle est l'identifiant de cette maladie ?
 +
* Quelle(s) région(s) chromosomique(s) lui sont associées ?
 +
* Quels sont les informations cliniques disponibles ?
 +
* Quels gènes sont associés à cette maladie ?
 +
* Comment est transmise cette maladie ?
 +
* Quelle est sa prévalence ?
 +
* Existe-t-il des modèles animaux pour cette maladie ?
 +
* Y a-t-il des articles scientifiques relatifs à cette maladie ? combien sont référencés ?
 +
 +
A partir du menu de droite dans la section ''External links for entry'', suivez le lien vers ''Protein''.
 +
* Sur quelle banque arrivez-vous ?
 +
* Quelle est son identifiant dans cette banque ?
 +
* Faire afficher la fiche au format texte ?
 +
* Comment s'organise cette fiche ?
 +
* A quoi correspondent les lignes CC, DR, FT, SQ ?
 +
* Revenez à l'affichage précédent.
 +
* Quelles sont les fonctions moléculaires connues de cette protéine ? Comment sont-elles référencées ?
 +
* Est-ce que cette protéine est connue pour interagir avec d'autres ?
 +
* Suivez le lien allant vers la banque de données STRING. A quoi correspondent les interactions affichées ?
 +
* Utilisez les vues ''Occurence'', ''Coexpression'' et ''Database''. Affichez les information concernant KEGG et suivez le lien ''link out KEGG''. Sur quel type de carte arrivez-vous ?
 +
* Sur ce site, naviguez pour visualiser la voie métabolique de la ''glycolyse''.
 +
* Quelle est la formule du phosphoenol-pyruvate ?
 +
* A quoi correspond le code 2.7.1.40 ?
 +
* Quelle(s) enzyme(s) chez l'homme catalyse(nt) la réaction phosphoenol-pyruvate -> pyruvate ?
 +
* Revenez sur la fiche de la protéine. Quelle est sa taille ? Quelle est l'unité de mesure utilisée ?
 +
* Retrouvez la séquence de  l'ARNm correspondant. Quel est son identifiant ? Sa taille ?
 +
* Affichez sa séquence au format FASTA.
 +
* Combien de domaines protéiques arbore cette séquence ?
 +
* Affichez l'architecture en domaines de cette séquence en utilisant InterPro.
 +
* Affichez les informations sur le domaine ATPase. Affichez les informations provenant de la banque de données SMART.
 +
* Ce domaine est-il présent dans beaucoup de protéines ?
 +
 +
 +
= Quantité de données disponibles =
 +
* Trouvez le site ''Genomes Online Database''. A partir de celui-ci, déterminez combien de génomes complets sont disponibles ; côté procaryote ? côté eucaryote ?
 +
* A partir de ce que vous avez vu au cours de la séance, déterminez le nombre de séquences nucléiques actuellement disponibles ainsi que le nombre de séquences protéiques.
 +
* Chaque année la revue scientifique ''Nucleic Acids Research'' édite un numéro spécial présentant une sélection de banques de données et met à disposition une base de données de banques de données ! Retrouvez combien de banques sont recensées.
 +
 +
 +
= Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu =
 +
 +
'''1°)''' Récupérez la séquence Q6Q475
 +
* de quelle type de séquence s'agit-il ?
 +
* à quel organisme appartient-elle ?
 +
* quelle est la fonction de Q6Q475 ?
 +
* dans quelle banque cette séquence est-elle déposée ?
 +
* retrouvez cette séquence sur le site UniProt.
 +
* retrouvez la séquence nucléique codant cette protéine.
 +
* affichez la séquence au format FASTA.
 +
* à l'aide des outils fournis dans la suite [[silico:emboss|EMBOSS]], faites une traduction automatique de la séquence nucléique en séquence protéique.
 +
* faites l'opération inverse : de la séquence protéique à la séquence nucléique.
 +
* comparez la séquence nucléique obtenue à l'étape précédente avec la séquence nucléique originale. Observez-vous des différences ?
 +
<!--
= Recherche dans les banques ''via'' l'utilisation de mots-clés =
= Recherche dans les banques ''via'' l'utilisation de mots-clés =
'''Remarque :''' Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens (AND, OR, NOT)
'''Remarque :''' Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens (AND, OR, NOT)
-
'''1°)''' Sur le serveur du NCBI, <u>identifiez</u>:
+
''' Sur le serveur du NCBI, <u>identifiez</u>:
* toutes les séquences de l'oomycète ''Phytophthora'' (parasite de la pomme de terre), combien sont-elles ?   
* toutes les séquences de l'oomycète ''Phytophthora'' (parasite de la pomme de terre), combien sont-elles ?   
* les séquences protéiques de ''Phytophthora parasitica'' correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux).  
* les séquences protéiques de ''Phytophthora parasitica'' correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux).  
Line 90: Line 163:
-
= Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu =
+
-->
-
 
+
-
'''1°)''' Récupérez la séquence Q6Q475
+
-
* de quelle type de séquence s'agit-il ?
+
-
* à quel organisme appartient-elle ?
+
-
* quelle est la fonction de Q6Q475 ?
+
-
* dans quelle banque cette séquence est-elle déposée ?
+
-
* retrouvez cette séquence sur le site UniProt.
+
-
* retrouvez la séquence nucléique codant cette protéine.
+
-
* affichez la séquence au format FASTA.
+
-
* à l'aide des outils fournis dans la suite [[silico:emboss|EMBOSS]], faites une traduction automatique de la séquence nucléique en séquence protéique.
+
-
* faites l'opération inverse : de la séquence protéique à la séquence nucléique.
+
-
* comparez la séquence nucléique obtenue à l'étape précédente avec la séquence nucléique originale. Observez-vous des différences ?
+
-
 
+
-
= Quantité de données disponibles =
+
-
* Trouvez le site ''Genomes Online Database''. A partir de celui-ci, déterminez combien de génomes complets sont disponibles ; côté procaryote ? côté eucaryote ?
+
-
* A partir de ce que vous avez vu au cours de la séance, déterminez le nombre de séquences nucléiques actuellement disponibles ainsi que le nombre de séquences protéiques.
+
-
* Chaque année la revue scientifique ''Nucleic Acids Research'' édite un numéro spécial présentant une sélection de banques de données et met à disposition une base de données de banques de données ! Retrouvez combien de banques sont recensées.
+

Current revision as of 14:11, 5 February 2015


Quelques ressources disponibles

Vous allez utiliser le site du NCBI. Ce portail évolue plus ou moins souvent à mesure que les données et méthodes sont disponibles ainsi que les technologies Web.

Ce site regroupe des banques de données publiques (ex: banques de séquences nucléiques ou protéiques, banques de structures, ...), et met à disposition des outils mettant en oeuvre des méthodes bioformatiques (recherche de séquences par similarité, ...). Nous allons dans un premier temps nous intéresser aux banques mises à disposition.

Un moteur de recherche sur l'ensemble des banques disponibles est disponible : http://www.ncbi.nlm.nih.gov/gquery

Parmi celles disponibles, remarquez les suivantes :

  • PubMed
  • OMIM
  • Nucleotide
  • Genome
  • dbVar
  • SNP
  • Taxonomy
  • Gene
  • GEO
  • Conserved Domains
  • Protein
  • Structure

A quoi correspondent ces banques ?

On s'intéresse au génome humain (qui a été publié en 2001).

Dans quelle(s) banque(s) effectuer des recherches pour connaître

  • sa taille
  • la séquence des chromosomes
  • le nombre de gènes
  • le nombre de protéines

Retrouvez le dernier assemblage des différentes séquences obtenues publié par le GRC (Genome Reference Consortium). De quand date-t-il ?

  • Quelle est la taille du génome humain ?
  • Quelle est l'unité de mesure utilisée ?
  • Combien y a-t-il de chromosomes chez cette espèce ?
  • Quelle est la lignée pour cet organisme (au delà de genre espèce) ? l'identifiant taxonomique de l'espèce ? le code génétique utilisé ? le codon initiateur de la traduction ?
  • Quelle est la taille du chromosome 7 ? Combien arbore-t-il de gènes ? de protéines ? Comment expliquer la différence ?

Suivez le lien pour aller sur la fiche de la séquence du chromosome 7.

  • Comment s'organise cette fiche ?
  • Dans quel journal est paru le premier article référencé sur la fiche ?
  • Sous quel numéro cet article est-il référencé dans PubMed ?
  • Est-ce que la séquence complète du chromosome est disponible ? Qu'est-ce qu'un contig ? à quelle version en est-on ?
  • En suivant le lien à droite (Related inforation) vers Gene, combien de gènes seraient sur le chromosome 7 ? Cela correspond-il à ce que vous aviez noté précédemment ?


Nous allons nous intéresser à la mucoviscidose (mucoviscidosis) chez l'humain.

Dans quelle banque effectuer une recherche pour avoir des informations sur cette maladie génétique ?

Retrouvez la fiche correspondante.

  • Quelle est l'identifiant de cette maladie ?
  • Quelle(s) région(s) chromosomique(s) lui sont associées ?
  • Quels sont les informations cliniques disponibles ?
  • Quels gènes sont associés à cette maladie ?
  • Comment est transmise cette maladie ?
  • Quelle est sa prévalence ?
  • Existe-t-il des modèles animaux pour cette maladie ?
  • Y a-t-il des articles scientifiques relatifs à cette maladie ? combien sont référencés ?

A partir du menu de droite dans la section External links for entry, suivez le lien vers Protein.

  • Sur quelle banque arrivez-vous ?
  • Quelle est son identifiant dans cette banque ?
  • Faire afficher la fiche au format texte ?
  • Comment s'organise cette fiche ?
  • A quoi correspondent les lignes CC, DR, FT, SQ ?
  • Revenez à l'affichage précédent.
  • Quelles sont les fonctions moléculaires connues de cette protéine ? Comment sont-elles référencées ?
  • Est-ce que cette protéine est connue pour interagir avec d'autres ?
  • Suivez le lien allant vers la banque de données STRING. A quoi correspondent les interactions affichées ?
  • Utilisez les vues Occurence, Coexpression et Database. Affichez les information concernant KEGG et suivez le lien link out KEGG. Sur quel type de carte arrivez-vous ?
  • Sur ce site, naviguez pour visualiser la voie métabolique de la glycolyse.
  • Quelle est la formule du phosphoenol-pyruvate ?
  • A quoi correspond le code 2.7.1.40 ?
  • Quelle(s) enzyme(s) chez l'homme catalyse(nt) la réaction phosphoenol-pyruvate -> pyruvate ?
  • Revenez sur la fiche de la protéine. Quelle est sa taille ? Quelle est l'unité de mesure utilisée ?
  • Retrouvez la séquence de l'ARNm correspondant. Quel est son identifiant ? Sa taille ?
  • Affichez sa séquence au format FASTA.
  • Combien de domaines protéiques arbore cette séquence ?
  • Affichez l'architecture en domaines de cette séquence en utilisant InterPro.
  • Affichez les informations sur le domaine ATPase. Affichez les informations provenant de la banque de données SMART.
  • Ce domaine est-il présent dans beaucoup de protéines ?


Quantité de données disponibles

  • Trouvez le site Genomes Online Database. A partir de celui-ci, déterminez combien de génomes complets sont disponibles ; côté procaryote ? côté eucaryote ?
  • A partir de ce que vous avez vu au cours de la séance, déterminez le nombre de séquences nucléiques actuellement disponibles ainsi que le nombre de séquences protéiques.
  • Chaque année la revue scientifique Nucleic Acids Research édite un numéro spécial présentant une sélection de banques de données et met à disposition une base de données de banques de données ! Retrouvez combien de banques sont recensées.


Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu

1°) Récupérez la séquence Q6Q475

  • de quelle type de séquence s'agit-il ?
  • à quel organisme appartient-elle ?
  • quelle est la fonction de Q6Q475 ?
  • dans quelle banque cette séquence est-elle déposée ?
  • retrouvez cette séquence sur le site UniProt.
  • retrouvez la séquence nucléique codant cette protéine.
  • affichez la séquence au format FASTA.
  • à l'aide des outils fournis dans la suite EMBOSS, faites une traduction automatique de la séquence nucléique en séquence protéique.
  • faites l'opération inverse : de la séquence protéique à la séquence nucléique.
  • comparez la séquence nucléique obtenue à l'étape précédente avec la séquence nucléique originale. Observez-vous des différences ?