silico.biotoul.fr
 

TP1 Bioanalyse

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(Partie 3: recherche d'une phase ouverte de lecture (ORF, open reading frame) sur un ARNm)
(Partie 3: recherche d'une phase ouverte de lecture (ORF, open reading frame) sur un ARNm)
Line 112: Line 112:
==Partie 3: recherche d'une phase ouverte de lecture (ORF, open reading frame) sur un ARNm ==
==Partie 3: recherche d'une phase ouverte de lecture (ORF, open reading frame) sur un ARNm ==
-
Le criblage d'une banque d'ADNc humaine à permis d'identifier un clone codant probablement pour l'isoforme le plus long. Il faut donc identifier la phase ouverte de lecture sur cette séquence nucléique disponible [[Media:BCL2_seq.seq|ici]] au format FASTA.
+
Le criblage d'une banque d'ADNc humaine à permis d'identifier un clone codant probablement pour l'isoforme le plus long. Il faut donc identifier la phase ouverte de lecture sur cette séquence nucléique, disponible [[Media:BCL2_seq.seq|ici]], au format FASTA.
puis identifier la zone correspondant à la région où se situe la séquence que l'on souhaite exprimer chez E. coli pour obtenir une protéine recombinante. Cette région sera amplifiée par PCR avant d'etre clonée dans un vecteur d'expression d'E. coli.
puis identifier la zone correspondant à la région où se situe la séquence que l'on souhaite exprimer chez E. coli pour obtenir une protéine recombinante. Cette région sera amplifiée par PCR avant d'etre clonée dans un vecteur d'expression d'E. coli.

Revision as of 17:29, 6 January 2021

Contents

OBJECTIFS

 - Etre capable de retrouver une séquence dont on connait le numéro d'accession dans sa banque
 - Savoir comment s'organisent les fiches des séquences, et où y chercher les informations
 - Etre capable de trouver une ou des séquences à l'aide de mots clés ciblant des champs spécifiques
 - Naviguer entre les banques, changer de format, télécharger des séquences
 - Utiliser quelques outils de bioanalyse pour répondre à une question biologique

EXERCICE 1 : Recherche d'une séquence dans les banques via son numéro d'accession

1/ Allez sur le site d' UniProt

  • Où êtes-vous localisés ? Qu'est-ce que Uniprot ?
  • Combien de séquences sont référencées dans la section SwissProt de UniProt ? dans la section TrEMBL de UniProt?

Chercher la séquence P01308 dans Uniprot

  • De quelle protéine s'agit-il ? chez quel organisme ?
  • Quelle est la taille de cette séquence ?
  • Que sont les "VARIANT" ?
  • Y a-t-il des preuves expérimentales de l'existence de cette protéine ?
  • Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
  • Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et regarder Ancestor Chart
  • Regarder dans 'Cross-references' : combien de liens vers des séquences génomiques ? Combien vers des ARNm ?

Cliquer sur AY138590 => puis à droite View => EMBL : combien d'exons composent ce gène ? combien constituent la séquence codante ?


Revenir sur Uniprot et afficher le format UniProtKB en cliquant sur Format => Onglet 'Text' en haut de la page


2/ Sur le site du NCBI : chercher (via ENTREZ) la même séquence.

  • Quels sont les résultats ?
  • Cliquer sur Protein : la séquence est ici au format GenPept


EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés

1/ Sur le site du NCBI, identifiez :

  • toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre) : combien sont-elles ?
  • les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux)

Pour cela utiliser ENTREZ, et si vous ne voulez rechercher que dans la banque protéique, cliquer sur Protein, puis utiliser l'option Advanced. A l'aide de l'outil Search builder préciser les champs où vous souhaitez faire votre requête (Organism, Title...), combinez vos camps avec les opérateurs AND, OR et NOT. L'historique de vos requêtes est disponible en dessous et vous pouvez combinez des résultats de requêtes précédentes avec les opérateurs AND, OR et NOT.

NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...


2/ On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

  • comment s'organise cette fiche ?
  • quel est le nom de cette protéine ?
  • dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
  • sous quel numéro cette publication est-elle référencée dans PubMed ?
  • de combien d'acides aminés est composée cette protéine ?
  • quels domaines sont présents dans la protéine ?
  • trouver un moyen pour aller sur cette séquence dans Uniprot à partir de cette fiche (=>lien croisé)
  • sans cliquer sur le bouton 'retour en arrière de votre navigateur', depuis Uniprot (EBI-EMBL), trouver un moyen pour revenir à la fiche initiale au NCBI


3/ Nous allons maintenant aussi faire des recherches avancées sur Uniprot

Chercher les séquences protéiques d'insuline chez le chien :

  • combien sont référencées dans UniProt/SwissProt ?
  • combien dans trEMBL ?
  • afficher les séquences au format FASTA


Toujours sur UniProt, chercher des séquences protéiques de dinosaures

  • combien sont référencées ?

EXERCICE 3 : Recherche dans les banques via l'outil BLAST (A INCLURE ICI POUR UN PREMIER BLAST?)

Mise en application

Contexte Scientifique: vous venez d'arriver dans une équipe de recherche travaillant sur le gène BCL2 humain, impliqué dans différents cancers.
Une analyse fonctionnelle de BCL2 doit être réalisée afin de mieux comprendre le rôle de la protéine BCL2. Pour cela l'équipe souhaite tout d'abord obtenir un anticorps dirigé contre BCL2. Pour cela il est nécessaire

  • d'identifier quel(s) domaine(s) de BCL2 sont les plus appropriés
  • de produire ce(s) domaine(s) de façon hétérologue dans Escherichia coli (protéines recombinantes), afin d'immuniser des lapins.

L'ensemble des exercices ci-dessous permettront de réaliser ces étapes.

Partie 1: recherche des séquences dans les banques

Dans un premier temps, il est nécessaire de récupérer les séquences humaines codant BCL2. Sur le site du NCBI

  • Recherchez les protéines codées par le gène nommé BCL2.

Combien en avez-vous ? Sélectionnez celles qui proviennent du génome humain.

  • Restreindre les résultats aux séquences de la banque RefSeq.

Vous devez maintenant avoir 2 isoformes avec les numéros d'accession NP_000624 et NP_000648. (et deux séquences prédites avec des numéros d'accession en XP_ qu'on ne gardera pas)

  • Gardez cette page ouverte, pour pouvoir ensuite accéder aux séquences au format FASTA

Partie 2: analyse de l'organisation en domaines de séquences protéiques

Afin de définir quelle région de ces protéines est la mieux adaptée pour définir un anticorps, nous allons prédire l'organisation en domaines (= organisation structurale) de ces deux isoformes protéiques.

  • Utilisez SMART pour chercher si des domaines protéiques sont prédits sur ces deux isoformes protéiques (SMART normal mode, à gauche en bleu > copier coller votre séquence dans le cadre > cliquer sur sequences smart> sur la page intermédiaire de résultats cliquer sur P10415 > observez les résultats).

Notez la position des domaines prédits par SMART.

  • Quelles sont les différences entre ces 2 isoformes ?
  • Afin de définir un anticorps spécifique de l'isoforme le plus long, quelle région de la protéine faut-il sélectionner?

Pour la suite nous travaillerons donc sur l'isoforme le plus long (NP_000624)

Partie 3: recherche d'une phase ouverte de lecture (ORF, open reading frame) sur un ARNm

Le criblage d'une banque d'ADNc humaine à permis d'identifier un clone codant probablement pour l'isoforme le plus long. Il faut donc identifier la phase ouverte de lecture sur cette séquence nucléique, disponible ici, au format FASTA.

puis identifier la zone correspondant à la région où se situe la séquence que l'on souhaite exprimer chez E. coli pour obtenir une protéine recombinante. Cette région sera amplifiée par PCR avant d'etre clonée dans un vecteur d'expression d'E. coli.