silico.biotoul.fr
 

InfoBio TD Sequences et banques de donnees

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m
m (Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu)
 
(12 intermediate revisions not shown)
Line 1: Line 1:
 +
<!--
Ci-dessous une sélection de sites Internet locaux, nationaux, européens et internationaux très utiles en biologie et bioinformatique.
Ci-dessous une sélection de sites Internet locaux, nationaux, européens et internationaux très utiles en biologie et bioinformatique.
Line 7: Line 8:
* [http://pbil.univ-lyon1.fr/ PBIL] Pôle Bio-Informatique Lyonnais (CNRS, Lyon)
* [http://pbil.univ-lyon1.fr/ PBIL] Pôle Bio-Informatique Lyonnais (CNRS, Lyon)
* [http://bioweb.pasteur.fr/ Institut Pasteur]
* [http://bioweb.pasteur.fr/ Institut Pasteur]
 +
-->
-
= Apperçu des ressources disponibles =
+
= Quelques ressources disponibles =
-
Allez sur le site du [http://www.ncbi.nlm.nih.gov NCBI]. Ce portail évolue plus ou moins souvent à mesure que les données et méthodes sont disponibles ainsi que les technologies Web.
+
Vous allez utiliser le site du NCBI. Ce portail évolue plus ou moins souvent à mesure que les données et méthodes sont disponibles ainsi que les technologies Web.
-
Ce site regroupe des banques de données publiques (ex: banques de séquences nucléiques ou protéiques, banques de structures, ...), et mets à disposition des outils mettant en oeuvre des méthodes bioformatiques (recherche de séquences par similarité, ...). Nous allons dans un premier temps nous intéresser aux banques mises à disposition.
+
Ce site regroupe des banques de données publiques (ex: banques de séquences nucléiques ou protéiques, banques de structures, ...), et met à disposition des outils mettant en oeuvre des méthodes bioformatiques (recherche de séquences par similarité, ...). Nous allons dans un premier temps nous intéresser aux banques mises à disposition.
-
Cliquez directement sur ''Search'' pour atteindre le système '''Entrez''' qui permet de faire des recherches sur l'ensemble des banques. Parmi celles disponibles, remarquez les suivantes :
+
Un moteur de recherche sur l'ensemble des banques disponibles est disponible : http://www.ncbi.nlm.nih.gov/gquery
-
* PubMed etPubMed Central
+
 
 +
Parmi celles disponibles, remarquez les suivantes :
 +
* PubMed
* OMIM
* OMIM
-
* Nucleotide et EST
+
* Nucleotide
-
* Protein
+
* Genome
* Genome
-
* Structure
+
* dbVar
-
* Taxonomy
+
* SNP
* SNP
-
* CDD
+
* Taxonomy
 +
* Gene
 +
* GEO
 +
* Conserved Domains
 +
* Protein
 +
* Structure
'''''A quoi correspondent ces banques ?'''''
'''''A quoi correspondent ces banques ?'''''
 +
On s'intéresse au génome humain (qui a été publié en 2001).
 +
 +
Dans quelle(s) banque(s) effectuer des recherches pour connaître
 +
* sa taille
 +
* la séquence des chromosomes
 +
* le nombre de gènes
 +
* le nombre de protéines
 +
 +
'''Retrouvez''' le dernier assemblage des différentes séquences obtenues publié par le GRC (Genome Reference Consortium). De quand date-t-il ?
 +
 +
* '''Quelle est la taille du génome humain ?'''
 +
* Quelle est l'unité de mesure utilisée ?
 +
* Combien y a-t-il de chromosomes chez cette espèce ?
 +
 +
* Quelle est la lignée pour cet organisme (au delà de genre espèce) ? l'identifiant taxonomique de l'espèce ? le code génétique utilisé ? le codon initiateur de la traduction ?
 +
 +
* Quelle est la taille du chromosome 7 ? Combien arbore-t-il de gènes ? de protéines ? Comment expliquer la différence ?
 +
 +
'''Suivez''' le lien pour aller sur la fiche de la séquence du chromosome 7.
 +
* Comment s'organise cette fiche ?
 +
* Dans quel journal est paru le premier article référencé sur la fiche ?
 +
* Sous quel numéro cet article est-il référencé dans PubMed ?
 +
* Est-ce que la séquence complète du chromosome est disponible ? Qu'est-ce qu'un ''contig'' ? à quelle version en est-on ?
 +
 +
* En suivant le lien à droite (''Related inforation'') vers Gene, combien de gènes seraient sur le chromosome 7 ? Cela correspond-il à ce que vous aviez noté précédemment ?
 +
 +
 +
 +
Nous allons nous intéresser à la mucoviscidose (mucoviscidosis) chez l'humain.
 +
 +
'''''Dans quelle banque effectuer une recherche pour avoir des informations sur cette maladie génétique ?'''''
 +
 +
'''Retrouvez''' la fiche correspondante.
 +
* Quelle est l'identifiant de cette maladie ?
 +
* Quelle(s) région(s) chromosomique(s) lui sont associées ?
 +
* Quels sont les informations cliniques disponibles ?
 +
* Quels gènes sont associés à cette maladie ?
 +
* Comment est transmise cette maladie ?
 +
* Quelle est sa prévalence ?
 +
* Existe-t-il des modèles animaux pour cette maladie ?
 +
* Y a-t-il des articles scientifiques relatifs à cette maladie ? combien sont référencés ?
 +
 +
A partir du menu de droite dans la section ''External links for entry'', suivez le lien vers ''Protein''.
 +
* Sur quelle banque arrivez-vous ?
 +
* Quelle est son identifiant dans cette banque ?
 +
* Faire afficher la fiche au format texte ?
 +
* Comment s'organise cette fiche ?
 +
* A quoi correspondent les lignes CC, DR, FT, SQ ?
 +
* Revenez à l'affichage précédent.
 +
* Quelles sont les fonctions moléculaires connues de cette protéine ? Comment sont-elles référencées ?
 +
* Est-ce que cette protéine est connue pour interagir avec d'autres ?
 +
* Suivez le lien allant vers la banque de données STRING. A quoi correspondent les interactions affichées ?
 +
* Utilisez les vues ''Occurence'', ''Coexpression'' et ''Database''. Affichez les information concernant KEGG et suivez le lien ''link out KEGG''. Sur quel type de carte arrivez-vous ?
 +
* Sur ce site, naviguez pour visualiser la voie métabolique de la ''glycolyse''.
 +
* Quelle est la formule du phosphoenol-pyruvate ?
 +
* A quoi correspond le code 2.7.1.40 ?
 +
* Quelle(s) enzyme(s) chez l'homme catalyse(nt) la réaction phosphoenol-pyruvate -> pyruvate ?
 +
* Revenez sur la fiche de la protéine. Quelle est sa taille ? Quelle est l'unité de mesure utilisée ?
 +
* Retrouvez la séquence de  l'ARNm correspondant. Quel est son identifiant ? Sa taille ?
 +
* Affichez sa séquence au format FASTA.
 +
* Combien de domaines protéiques arbore cette séquence ?
 +
* Affichez l'architecture en domaines de cette séquence en utilisant InterPro.
 +
* Affichez les informations sur le domaine ATPase. Affichez les informations provenant de la banque de données SMART.
 +
* Ce domaine est-il présent dans beaucoup de protéines ?
 +
 +
 +
= Quantité de données disponibles =
 +
* Trouvez le site ''Genomes Online Database''. A partir de celui-ci, déterminez combien de génomes complets sont disponibles ; côté procaryote ? côté eucaryote ?
 +
* A partir de ce que vous avez vu au cours de la séance, déterminez le nombre de séquences nucléiques actuellement disponibles ainsi que le nombre de séquences protéiques.
 +
* Chaque année la revue scientifique ''Nucleic Acids Research'' édite un numéro spécial présentant une sélection de banques de données et met à disposition une base de données de banques de données ! Retrouvez combien de banques sont recensées.
 +
 +
 +
= Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu =
 +
 +
'''1°)''' Récupérez la séquence Q6Q475
 +
* de quelle type de séquence s'agit-il ?
 +
* à quel organisme appartient-elle ?
 +
* quelle est la fonction de Q6Q475 ?
 +
* dans quelle banque cette séquence est-elle déposée ?
 +
* retrouvez cette séquence sur le site UniProt.
 +
* retrouvez la séquence nucléique codant cette protéine.
 +
* affichez la séquence au format FASTA.
 +
* à l'aide des outils fournis dans la suite [[silico:emboss|EMBOSS]], faites une traduction automatique de la séquence nucléique en séquence protéique.
 +
* faites l'opération inverse : de la séquence protéique à la séquence nucléique.
 +
* comparez la séquence nucléique obtenue à l'étape précédente avec la séquence nucléique originale. Observez-vous des différences ?
 +
 +
<!--
= Recherche dans les banques ''via'' l'utilisation de mots-clés =
= Recherche dans les banques ''via'' l'utilisation de mots-clés =
'''Remarque :''' Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens (AND, OR, NOT)
'''Remarque :''' Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens (AND, OR, NOT)
-
'''1°)''' Sur le serveur du NCBI, <u>identifiez</u>:
+
''' Sur le serveur du NCBI, <u>identifiez</u>:
* toutes les séquences de l'oomycète ''Phytophthora'' (parasite de la pomme de terre), combien sont-elles ?   
* toutes les séquences de l'oomycète ''Phytophthora'' (parasite de la pomme de terre), combien sont-elles ?   
* les séquences protéiques de ''Phytophthora parasitica'' correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux).  
* les séquences protéiques de ''Phytophthora parasitica'' correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux).  
Line 54: Line 148:
* quel est la fonction du domaine "IPR00254" ? est-il spécifique des oomycètes/champignons ou tout autre espèce ?
* quel est la fonction du domaine "IPR00254" ? est-il spécifique des oomycètes/champignons ou tout autre espèce ?
* ce domaine est-il référencé dans d'autres banques de domaine ? Si oui, lesquelles et sous quelle nomenclature ?
* ce domaine est-il référencé dans d'autres banques de domaine ? Si oui, lesquelles et sous quelle nomenclature ?
-
 
+
* trouvez la fiche de la séquence nucléique codant pour cette protéine. Quelles différences observez vous par rapport à la fiche de la protéine ?
'''2°)''' Sur le serveur de l'EBI, trouvez '''SRS'''
'''2°)''' Sur le serveur de l'EBI, trouvez '''SRS'''
Line 67: Line 161:
* ouvrir la fiche TrEMBL de O42830 (Colonne Accession). Que constatez-vous par rapport à la fiche GenPept ? Utilisez notamment les liens ''Text entry'', ''SwissEntry'' et ''UniProtXML''.
* ouvrir la fiche TrEMBL de O42830 (Colonne Accession). Que constatez-vous par rapport à la fiche GenPept ? Utilisez notamment les liens ''Text entry'', ''SwissEntry'' et ''UniProtXML''.
* à quoi correspond le lien GO:0030248 ?
* à quoi correspond le lien GO:0030248 ?
 +
 +
 +
-->

Current revision as of 14:11, 5 February 2015


Quelques ressources disponibles

Vous allez utiliser le site du NCBI. Ce portail évolue plus ou moins souvent à mesure que les données et méthodes sont disponibles ainsi que les technologies Web.

Ce site regroupe des banques de données publiques (ex: banques de séquences nucléiques ou protéiques, banques de structures, ...), et met à disposition des outils mettant en oeuvre des méthodes bioformatiques (recherche de séquences par similarité, ...). Nous allons dans un premier temps nous intéresser aux banques mises à disposition.

Un moteur de recherche sur l'ensemble des banques disponibles est disponible : http://www.ncbi.nlm.nih.gov/gquery

Parmi celles disponibles, remarquez les suivantes :

  • PubMed
  • OMIM
  • Nucleotide
  • Genome
  • dbVar
  • SNP
  • Taxonomy
  • Gene
  • GEO
  • Conserved Domains
  • Protein
  • Structure

A quoi correspondent ces banques ?

On s'intéresse au génome humain (qui a été publié en 2001).

Dans quelle(s) banque(s) effectuer des recherches pour connaître

  • sa taille
  • la séquence des chromosomes
  • le nombre de gènes
  • le nombre de protéines

Retrouvez le dernier assemblage des différentes séquences obtenues publié par le GRC (Genome Reference Consortium). De quand date-t-il ?

  • Quelle est la taille du génome humain ?
  • Quelle est l'unité de mesure utilisée ?
  • Combien y a-t-il de chromosomes chez cette espèce ?
  • Quelle est la lignée pour cet organisme (au delà de genre espèce) ? l'identifiant taxonomique de l'espèce ? le code génétique utilisé ? le codon initiateur de la traduction ?
  • Quelle est la taille du chromosome 7 ? Combien arbore-t-il de gènes ? de protéines ? Comment expliquer la différence ?

Suivez le lien pour aller sur la fiche de la séquence du chromosome 7.

  • Comment s'organise cette fiche ?
  • Dans quel journal est paru le premier article référencé sur la fiche ?
  • Sous quel numéro cet article est-il référencé dans PubMed ?
  • Est-ce que la séquence complète du chromosome est disponible ? Qu'est-ce qu'un contig ? à quelle version en est-on ?
  • En suivant le lien à droite (Related inforation) vers Gene, combien de gènes seraient sur le chromosome 7 ? Cela correspond-il à ce que vous aviez noté précédemment ?


Nous allons nous intéresser à la mucoviscidose (mucoviscidosis) chez l'humain.

Dans quelle banque effectuer une recherche pour avoir des informations sur cette maladie génétique ?

Retrouvez la fiche correspondante.

  • Quelle est l'identifiant de cette maladie ?
  • Quelle(s) région(s) chromosomique(s) lui sont associées ?
  • Quels sont les informations cliniques disponibles ?
  • Quels gènes sont associés à cette maladie ?
  • Comment est transmise cette maladie ?
  • Quelle est sa prévalence ?
  • Existe-t-il des modèles animaux pour cette maladie ?
  • Y a-t-il des articles scientifiques relatifs à cette maladie ? combien sont référencés ?

A partir du menu de droite dans la section External links for entry, suivez le lien vers Protein.

  • Sur quelle banque arrivez-vous ?
  • Quelle est son identifiant dans cette banque ?
  • Faire afficher la fiche au format texte ?
  • Comment s'organise cette fiche ?
  • A quoi correspondent les lignes CC, DR, FT, SQ ?
  • Revenez à l'affichage précédent.
  • Quelles sont les fonctions moléculaires connues de cette protéine ? Comment sont-elles référencées ?
  • Est-ce que cette protéine est connue pour interagir avec d'autres ?
  • Suivez le lien allant vers la banque de données STRING. A quoi correspondent les interactions affichées ?
  • Utilisez les vues Occurence, Coexpression et Database. Affichez les information concernant KEGG et suivez le lien link out KEGG. Sur quel type de carte arrivez-vous ?
  • Sur ce site, naviguez pour visualiser la voie métabolique de la glycolyse.
  • Quelle est la formule du phosphoenol-pyruvate ?
  • A quoi correspond le code 2.7.1.40 ?
  • Quelle(s) enzyme(s) chez l'homme catalyse(nt) la réaction phosphoenol-pyruvate -> pyruvate ?
  • Revenez sur la fiche de la protéine. Quelle est sa taille ? Quelle est l'unité de mesure utilisée ?
  • Retrouvez la séquence de l'ARNm correspondant. Quel est son identifiant ? Sa taille ?
  • Affichez sa séquence au format FASTA.
  • Combien de domaines protéiques arbore cette séquence ?
  • Affichez l'architecture en domaines de cette séquence en utilisant InterPro.
  • Affichez les informations sur le domaine ATPase. Affichez les informations provenant de la banque de données SMART.
  • Ce domaine est-il présent dans beaucoup de protéines ?


Quantité de données disponibles

  • Trouvez le site Genomes Online Database. A partir de celui-ci, déterminez combien de génomes complets sont disponibles ; côté procaryote ? côté eucaryote ?
  • A partir de ce que vous avez vu au cours de la séance, déterminez le nombre de séquences nucléiques actuellement disponibles ainsi que le nombre de séquences protéiques.
  • Chaque année la revue scientifique Nucleic Acids Research édite un numéro spécial présentant une sélection de banques de données et met à disposition une base de données de banques de données ! Retrouvez combien de banques sont recensées.


Recherche dans les banques via l'utilisation d'une séquence dont l'identifiant est connu

1°) Récupérez la séquence Q6Q475

  • de quelle type de séquence s'agit-il ?
  • à quel organisme appartient-elle ?
  • quelle est la fonction de Q6Q475 ?
  • dans quelle banque cette séquence est-elle déposée ?
  • retrouvez cette séquence sur le site UniProt.
  • retrouvez la séquence nucléique codant cette protéine.
  • affichez la séquence au format FASTA.
  • à l'aide des outils fournis dans la suite EMBOSS, faites une traduction automatique de la séquence nucléique en séquence protéique.
  • faites l'opération inverse : de la séquence protéique à la séquence nucléique.
  • comparez la séquence nucléique obtenue à l'étape précédente avec la séquence nucléique originale. Observez-vous des différences ?