From silico.biotoul.fr

OBJECTIFS

 - Etre capable de retrouver une séquence dont on connait le numéro d'accession dans sa banque
 - Savoir comment s'organisent les fiches des séquences, et où y chercher les informations
 - Etre capable de trouver une ou des séquences à l'aide de mots clés ciblant des champs spécifiques
 - Naviguer entre les banques, changer de format, télécharger des séquences
 - Utiliser quelques outils de bioanalyse pour répondre à une question biologique

EXERCICE 1 : Recherche d'une séquence dans les banques via son numéro d'accession

1/ Allez sur le site d' UniProt

Où êtes-vous localisés ? Qu'est-ce que Uniprot ?
Combien de séquences sont référencées dans la section SwissProt de UniProt ? dans la section TrEMBL de UniProt?

Chercher la séquence P01308 dans Uniprot

De quelle protéine s'agit-il ? chez quel organisme ?
Quelle est la taille de cette séquence ?
Que sont les "VARIANT" ?
Y a-t-il des preuves expérimentales de l'existence de cette protéine ?
Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et regarder Ancestor Chart
Regarder dans 'Cross-references' : combien de liens vers des séquences génomiques ? Combien vers des ARNm ?

Cliquer sur AY138590 => puis à droite View => EMBL : combien d'exons composent ce gène ? combien constituent la séquence codante ?

Revenir sur Uniprot et afficher le format UniProtKB en cliquant sur Format => Onglet 'Text' en haut de la page

2/ Sur le site du NCBI : chercher (via ENTREZ) la même séquence.

Quels sont les résultats ?
Cliquer sur Protein : la séquence est ici au format GenPept
Affichez la séquence (protéique) au format Fasta

EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés

1/ Sur le site du NCBI, identifiez :

toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre) : combien sont-elles ?
les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux)

Pour cela utiliser ENTREZ, et si vous ne voulez rechercher que dans la banque protéique, cliquer sur Protein, puis utiliser l'option Advanced. A l'aide de l'outil Search builder préciser les champs où vous souhaitez faire votre requête (Organism, Title...), combinez vos camps avec les opérateurs AND, OR et NOT. L'historique de vos requêtes est disponible en dessous et vous pouvez combinez des résultats de requêtes précédentes avec les opérateurs AND, OR et NOT.

NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...

2/ On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

comment s'organise cette fiche ?
quel est le nom de cette protéine ?
dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
sous quel numéro cette publication est-elle référencée dans PubMed ?
de combien d'acides aminés est composée cette protéine ?
quels domaines sont présents dans la protéine ?
trouver un moyen pour aller sur cette séquence dans Uniprot à partir de cette fiche (=>lien croisé)
sans cliquer sur le bouton 'retour en arrière de votre navigateur', depuis Uniprot (EBI-EMBL), trouver un moyen pour revenir à la fiche initiale au NCBI

3/ Nous allons maintenant aussi faire des recherches avancées sur Uniprot

Chercher les séquences protéiques d'insuline chez le chien :

combien sont référencées dans UniProt/SwissProt ?
combien dans trEMBL ?
afficher les séquences au format FASTA

Toujours sur UniProt, chercher des séquences protéiques de dinosaures

combien sont référencées ?

Mise en application

Contexte Scientifique: vous venez d'arriver dans une équipe de recherche travaillant sur le gène BCL2 humain, impliqué dans différents cancers.
Une analyse fonctionnelle de BCL2 doit être réalisée afin de mieux comprendre le rôle de la protéine BCL2. Pour cela l'équipe souhaite tout d'abord obtenir un anticorps dirigé contre BCL2. Pour cela il est nécessaire

d'identifier quel(s) domaine(s) de BCL2 sont les plus appropriés
de produire ce(s) domaine(s) de façon hétérologue dans Escherichia coli (protéines recombinantes), afin d'immuniser des lapins.

L'ensemble des exercices ci-dessous permettront de réaliser ces étapes.

Partie 1: recherche des séquences dans les banques

Dans un premier temps, il est nécessaire de récupérer les séquences humaines codant BCL2. Sur le site du NCBI

Recherchez les protéines codées par le gène nommé BCL2.

Combien en avez-vous ? Sélectionnez celles qui proviennent du génome humain.

Restreindre les résultats aux séquences de la banque RefSeq.

Vous devez maintenant avoir au moins 2 isoformes avec les numéros d'accession NP_000624 et NP_000648.

Gardez cette page ouverte, pour pouvoir ensuite accéder aux séquences au format FASTA de ces isoformes

Partie 2: analyse de l'organisation en domaines de séquences protéiques

Afin de définir quelle région de ces protéines est la mieux adaptée pour définir un anticorps, nous allons prédire l'organisation en domaines (= organisation structurale) de ces deux isoformes protéiques.

Utilisez SMART pour chercher si des domaines protéiques sont prédits sur ces deux isoformes protéiques (SMART normal mode, à gauche en bleu > copier coller votre séquence dans le cadre > cliquer sur sequences smart> sur la page intermédiaire de résultats cliquer sur P10415 > observez les résultats).

Notez la position des domaines prédits par SMART.

Quelles sont les différences entre ces 2 isoformes ?
Afin de définir un anticorps reconnaissant les 2 isoformes, quelle(s) région(s) de la protéine faut-il sélectionner?

Partie 3: recherche d'une phase ouverte de lecture (ORF, open reading frame) sur un ARNm

Le criblage d'une banque d'ADNc humaine a permis d'identifier un ADNc codant probablement pour l'isoforme BCL2 le plus long. La séquence de cet ADNc est disponible ici, au format FASTA.

Vérifiez par une analyse BlastN au NCBI, que l'ADNc identifié est bien celui correspondant à BCL2 humain (Colonne de droite : Popular resources => BLAST => Nucleotide BLAST)

Maintenant que vous avez vérifié la qualité de la séquence nucléique de votre clone, il est nécessaire de vérifier que l'ADNc code pour la protéine BCL2 attendue. Pour cela, on va déterminer l'ORF la plus probable de l'ADNc en recherchant les cadres ouverts de lecture présents.

Utiliser l'outil ORF Finder du NCBI (Colonne de gauche : Resources List (A-Z) => Open Reading Frame Finder).

Copier-coller votre séquence ADNc dans le cadre au format FASTA > Mettre 300nt comme taille minimale des ORFs. Interprétez le graphique obtenu.

Identifiez l'ORF la plus probable. Notez la position des codons Start/stop
Vérifiez votre ORF la plus probable avec l'option BlastP d'ORF Finder (en bas de la page après avoir selectionné l'ORF) contre SwissProt

Partie 4: définition d'amorces PCR

Il faut maintenant amplifier par PCR en utilisant votre ADNc comme matrice, la région d'intérêt BCL. Cette région sera ensuite clonée dans un vecteur d'expression d'E. coli pour produire le peptide recombinant, qui sera injecté aux lapins pour produire des anticorps dirigé contre ce peptide BCL

Choix des amorces PCR

A partir de votre séquence d'ADNc, faites une recherche d’amorces PCR avec le programme Primer3 disponible ici. Paramétrez le programme pour sélectionner au mieux la zone que vous voulez amplifier (= le domaine BCL) en demandant des amorces de 20 nucléotides minimum
Il faudra définir la zone que vous voulez amplifier dans Targets. Le programme demande : position_début, longueur_de_la_zone.
Exemple: Targets : 40,180 <=> on veut amplifier depuis la position 40 jusqu'à la position 220 (40+180)

Comment feriez-vous pour vérifier la spécificité des amorces ?

Spécificité des amorces. Vérifiez la spécificité du couple d'amorces présentées ci-dessous.

sens: TCCATTATAAGCTGTCGCAGA
reverse: CAGCCAGGAGAAATCAAACAG
On utilisera pour cela à nouveau le programme Nucleotide BLAST au NCBI, en rentrant comme séquence requête les 2 amorces, séparées par une série de N : amorce_gaucheNNNNNNNNNNNNNNNNNNNNamorce_droite
Choisir dans Database Genomic+transcript => Human genomic plus transcript (cochez la case exclude model XM/XP = prédictions)
Choisir dans Program selection : "Somewhat similar sequences", et dans Parameters mettre la Expect threshold min à 1.

TP1 Bioanalyse