silico.biotoul.fr
 

Bioanalyse TD Analyse de sequences et Biologie Moleculaire

From silico.biotoul.fr

Jump to: navigation, search

Contents

OBJECTIFS

   Révision recherche dans les banques et alignements
   Outils simples : recherche d'ORF, design de primers
   Premiers pas avec BLAST (le cours viendra après)


Introduction

Contexte Scientifique : vous venez d'arriver dans une équipe de recherche travaillant sur le gène BCL2 humain, impliqué dans différents cancers. Une analyse fonctionnelle de BCL2 doit être réalisée afin de mieux comprendre le rôle de la protéine BCL2. Pour cela l'équipe souhaite tout d'abord obtenir un anticorps dirigé contre BCL2. Pour cela il est nécessaire i) d'identifier quel(s) domaine(s) de BCL2 sont les plus appropriés et ii) de produire ce(s) domaine(s) de façon hétérologue dans Escherichia coli, afin d'immuniser des lapins.
L'ensemble des exercices ci-dessous permettront de réaliser ces étapes.

Ci-dessous une sélection des sites Internet qui vous seront également nécessaires au cours des séances:

  • la suite "EMBOSS", sur la Genopole de Toulouse ou au Pays Bas
  • EBI European Bioinformatics Institute (EMBL, GB)
  • NCBI National Center for Biotechnology Information (NIH, USA)
  • Expasy Expert Protein Analysis System (Swiss Institute of Bioinformatics, Suisse)
  • PRABI Pôle Rhône-Alpes de Bio-Informatique (CNRS, Lyon)

Exercice 1 : Recherche dans les banques

Dans un premier temps, il est nécessaire de récupérer les séquences humaines codant BCL2.

Sur le site du NCBI :

  • Recherchez les protéines codées par le gène BCL2. Combien en avez-vous ? Sélectionnez celles qui proviennent du génome humain.

Vérifiez que ce sont toutes des BCL2 et non des protéines associées à BCL2. Regardez quelques entrées et l’endroit dans la fiche où le nom BCL2 apparaît. Trouvez alors une façon d'affiner la requête.

  • Restreindre les résultats aux séquences de la banque RefSeq.

Vous devez maintenant avoir 2 isoformes NP_000624 et NP_000648. (et 4 séquences prédites avec des numéros d'accession en XP_ qu'on ne gardera pas)

  • A l’aide des programmes d’alignement de la suite EMBOSS, comparez les séquences protéiques des 2 isoformes. Quelles sont vont conclusions ?

Exercice 2 : Analyse d'une séquence protéique

Afin d'appréhender l'organisation structurale et la localisation cellulaire de BCL2, une analyse fine des séquences protéiques est nécessaire. Nous allons étudier la plus longue des 2 séquences précédemment trouvées.

1. Allez sur le site d’ExPASy :

  • Qu’est-ce-que le serveur Expasy ? Regardez les outils disponibles dans Proteins&Proteomes.
  • Calculez le Poids moléculaire et le Point isoélectrique de la protéine (Compute PI/MW ou ProtParam)
  • Cherchez les interactions avec STRING

2. Dans la liste des Ressources de l'EBI :

  • Testez Phobius pour la recherche de régions transmembranaires
  • Utilisez InterProscan pour interroger les banques de domaines et de motifs

3. Testez d’autres programmes de votre choix à l'EBI, sur ExPASy ou ailleurs Listes d'outils sur Molbiol-Tools ou OBRC par exemple (structure secondaire, région transmembranaire, adressage, sites de clivage, phosphorylation...)

4. Comparaison avec l'annotation de la séquence Comparez les résultats que vous avez obtenus avec l’annotation de la séquence, au format GenPept. Regardez maintenant l’entrée P10415 sur UniProt (lien depuis EXPASy)

On remarque que la séquence de SwissProt était très bien annotée (mieux que celle de RefSeq). D'une façon générale, la logique est de lire les informations fournies avant de faire des analyses !

Exercice 3 : Synthèse d'une sonde spécifique pour hybrider une banque d'ADNc

Il faut maintenant récupérer la séquence BCL2 pour ensuite réaliser le clonage du domaine d'intéret de BCL2 afin de produire la protéine recombinante correspondante. Le laboratoire dispose d'une banque d'ADNc humaine dans laquelle il est possible de récupérer les clones correspondant à l'ADNc de BCL2. Pour cela, il faut cribler la banque d'ADNc avec une sonde qui s'hybridera de façon spécifique au(x) clone(s) contenant BCL2.

  • En regardant les positions des motifs et domaines que vous avez trouvés, quelles parties de la séquence n’appartiennent pas à un domaine ?

Les domaines protéiques peuvent être partagés par d'autres protéines. Donc les régions spécifiques sont plus probablement en dehors des domaines.

  • Parmi celles-ci, laquelle n’est pas commune à l’isoforme de cette protéine ?

Nous allons maintenant extraire la région d'intérêt de la séquence BCL2 pour définir la sonde qui sera utilisée pour cribler la banque ADNc. Pour cela

  • Utilisez le programme ExtractSeq de la suite EMBOSS pour extraire la région identifiée.
  • Utilisez le programme Backtranseq pour faire la traduction inverse (rubrique Nucleic translation dans EMBOSS). Ce logiciel génère l’ADNc le plus probable en fonction de l’usage des codons, à partir de la protéine.

Exercice 4 : Recherche d'ORF sur un ARNm

Afin de vérifier le(s) clone(s) obtenu(s) suite au criblage de la banque d'ADNc, un séquençage est réalisé et la séquence obtenue est disponible ici.

  • Vérifiez que l'ADNc isolé est celui correspondant à BCL2 par une analyse Blastn sur le site du NCBI (colonne de droite :Popular resources => BLAST => Nucleotide BLAST)

Maintenant que vous avez vérifié la qualité de la séquence nucléique de votre clone, il sera nécessaire de vérifier que l'ADNc code pour la protéine attendue. Pour cela, on déterminera l'ORF la plus probable de l'ADNc en recherchant les cadres de lecture présents.

Nous allons maintenant rechercher sur cette séquence, l'ORF la plus probable. Pour cela nous allons tester 2 outils:

  • SixPack sur EMBOSS (rubrique Nucleic translation) en modifiant les paramètres suivants : ORF start with M, minimum size of ORF=100.

Regardez les traductions dans les différents cadres de lecture (les zones en majuscules sont des ORF potentielles (région d’un ATG à un Stop, plus grand que 100 aa). Quelle ORF vous paraît être la plus probable ? Pourquoi ?

  • ORF Finder au NCBI. Mettre 300nt comme taille minimale des ORFs. Interprétez le graphique obtenu.

Utilisez dans ORF Finder, l'option Blastp contre SwissProt et identifiez l'ORF la plus probable. Notez la position de l'ORF.

Exercice 5 : Définition d'amorces PCR

Vos analyses précédentes indiquent que le clone obtenu suite au criblage de la banque d'ADNc humaine disponible au laboratoire est correct et correspond à l'ARNm disponible dans les banques de données sous le numéro d'accession NM_000633. Il faut maintenant amplifier le domaine BCL afin de le cloner dans un vecteur d'expression d'E. coli permettant la production hétérologue du domaine BCL de BCL2. Il faut donc définir des amorces pour faire une PCR.

  • Choix des amorces PCR

A partir de votre séquence d'ADNc, faites une recherche d’amorces PCR avec le programme Primer3 disponible ici. Paramétrez le programme pour sélectionner au mieux la zone que vous voulez amplifier (= le domaine BCL) en demandant des amorces de 20 nucléotides minimum
Il faudra définir la zone que vous voulez amplifier dans Targets. Le programme demande : position_début, longueur_de_la_zone.
Exemple: Targets : 40,180 <=> on veut amplifier depuis la position 40 jusqu'à la position 220 (40+180)

Comment feriez-vous pour vérifier la spécificité des amorces ?

  • Spécificité des amorces. Vérifiez la spécificité du couple d'amorces présentées ci-dessous.

sens : GAGTGGGATGCGGGAGATGT
reverse : GAAATCAAACAGAGGCCGCA
On utilisera pour cela à nouveau le programme Nucleotide BLAST au NCBI, en rentrant comme séquence requête les 2 amorces, séparées par une série de N : amorce_sensNNNNNNNNNNNNNNNNNNNNamorce_reverse
Choisir dans Database Genomic+transcript => Human genomic plus transcript (cochez la case exclude model XM/XP = prédictions)
Choisir dans Program selection : "Somewhat similar sequences", et dans Parameters mettre la Expect threshold min à 1.

Après avoir identifié des sites de restriction compatibles entre votre insert PCR et le vecteur d'expression d'E. coli, un clonage sera réalisé afin d'insérer le produit PCR dans le vecteur. Après production du domaine de façon hétérologue dans E. coli, la protéine recombinante purifiée sera injectée dans un lapin, afin de produire des anticorps dirigés contre le domaine BCL.

Exercice 6 : Etude du gène BCL2

En prévision d'une étude de la régulation du gène BCL2 humain, une comparaison entre l'ADNg de BCL2 et le(s) ARNm correspondants doit être réalisée.

  • A partir de l'entrée "Gene 596" sur le site du NCBI, visualiser la structure du gène BCL2 de l'homme. Qu'en pensez-vous?
  • Dans l'entrée Gene, récupérez la séquence d'ADNg NG_009361.1 correspondant au gène BCL2 ainsi que les séquences des ARNm correspondants (NM_000633, et NM_000657) au format FASTA (descendez dans la page jusqu'à la partie NCBI Reference Sequences (RefSeq)).

Nous allons maintenant réaliser un alignement entre l'ADNg et l'ARNm de BCL. Pour cela:

  • Utilisez le logiciel SIM4 (si vous avez un message d'erreur, rechargez la page ou allez dans Online Services => Other =>SIM4) et réalisez un alignement entre NG_009361.1 et NM_000633, ainsi que NG_009361.1 et NM_000657. Que pouvez-vous conclure ?
  • Vous pourrez aussi aligner les 2 ARNm entre eux avec les programmes d'alignement de la suite EMBOSS. Que pouvez-vous conclure?