Analyse de séquences I: recherche par similarité, alignements deux à deux

From silico.biotoul.fr

Contexte Scientifique

Vous venez d'arriver dans une équipe de recherche travaillant sur le gène BCL2 humain, impliqué dans différents cancers. Une analyse fonctionnelle de BCL2 doit être réalisée chez la souris afin de mieux comprendre le rôle de la protéine codée par BCL2. Pour cela, il est nécessaire de disposer d'un anticorps dirigé contre un domaine de BCL2 et donc de produire ce domaine de manière hétérologue dans Escherichia coli, afin ensuite d'immuniser des lapins.

Ci-dessous une sélection des sites Internet qui vous seront nécessaires au cours des TD :

Génopôle Toulouse
EBI European Bioinformatics Institute (EMBL, GB)
NCBI National Center for Biotechnology Information (NIH, USA)
Expasy Expert Protein Analysis System (Swiss Institute of Bioinformatics, Suisse)
PBIL Pôle Bio-Informatique Lyonnais (CNRS, Lyon)
Institut Pasteur

Recherche dans les banques

Dans un premier temps, il est nécessaire de récupérer les séquences humaines codées par BCL2.

Sur le site du NCBI, recherchez les protéines codées par le gène BCL2.

Combien en avez-vous ? Sélectionnez celles qui proviennent du génome humain.

Restreindre la recherche aux séquences contenues dans la banque RefSeq.

Vous devriez maintenant avoir au moins les 2 isoformes NP_000624 et NP_000648.

Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot). Les logiciels sont disponibles dans la suite EMBOSS.

Utiliser DOTPATH qui permet de dessiner un dotplot avec une taille de mot fixée.

Que pouvez-vous conclure ?

Analyse d'une séquence protéique

Afin d'appréhender l'organisation structurale et la localisation cellulaire de BCL2, une analyse fine des séquences protéiques est nécessaire.

Allez sur le site d'Expasy. Qu'est-ce que le serveur Expasy ?

Les outils mis à votre disposition sont soit dans le menu Categories, soit accessible à partir de la liste complète depuis le lien Ressources A--Z de la page d'accueil.

Etudiez maintenant la plus longue des deux séquences trouvées précédemment.

Trouvez un ou des programmes pour calculer le poids moléculaire et le point isoélectrique de la protéine.

Utilisez ScanProsite, et InterPro Scan pour chercher si elle contient des domaines connus. Analysez les domaines identifiés et notez leur position.

Recherchez si la protéine contient des domaines membranaires.

Synthétisez les différentes informations et résultats que vous avez obtenus et comparez-les avec les annotations présentes dans la fiche de la séquence.

A ce stade, vous avez sûrement remarqué sur la fiche de NP_000624 la mention de l'entrée P10415 d'UniProt/SwissProt. Retournez sur le site de l'Expasy pour consulter la fiche de cette protéine.

Cette séquence a t elle été vérifié manuellement par un annonateur expert ?

Comparez ces annotations à celles trouvées dans la section suivante Gene Ontology, par exemple en ce qui concerne sa fonction.

Intéressez vous ensuite à la partie Sequence annotation (Features) et comparez les annotations à vos propres études menées précédemment.

Synthèse d'amorces PCR

Suite à l'analyse in silico de vos séquences, on souhaite cloner le transcrit codant NP_000624 (P10415) dans un vecteur d'expression d'E. coli., il faut donc amplifier ce transcrit par PCR, puis réaliser différentes étapes pour cloner l'insert dans le vecteur d'expression d'E. coli.

Décrivez succintement les étapes de clonage a réaliser, pour obtenir le vecteur d'expression d'E. coli

Identifiez en utilisant les bases de données le transcrit de NP_000624 (P10415).

Quel est son numéro d'accession dans les banques de données ?

En regardant les positions des motifs que vous avez trouvés, quelles parties de la séquence n'appartient pas à un domaine ?

Identifiez des primers (oligonucléotides) pouvant amplifier l'ensemble du transcrit codant pour NP_000624, en utilisant le logiciel Primer Blast disponible sur la GenBank.

NB: a partir de la fiche EMBL du transcrit, vous pouvez accéder directement a Primer-Blast en cliquant sur 'Pick Primers' (colonne de droite).

Recherche d'ORF

Afin de vérifier que le vecteur d'expression obtenu est correct et contient l'insert d'interêt, le resultat du séquençage du clone est fourni dans le fichier joint ici. Vous allez vérifier que ce clone code pour la protéine attendue. Pour cela, vous allez déterminer l'ORF et la position de la séquence codante la plus probable en recherchant les cadres de lecture présents.

Sur EMBOSS dans la rubrique Nucleic translation, utilisez Sixpack en spécifiant le paramètre ORF start with M à Yes.

Regarder les traductions dans les différents cadres de lecture.

Quelle ORF pourrait contenir la séquence codante ? Pourquoi ?

Afin de valider votre hypothèse quant à l'ORF la plus probable, il est necessaire d'aller identifier dans les banques de données si cette ORF code pour la protéine Bcl2. Pour cela vous allez réaliser une analyse Blast (BlastP), sur le site du NCBI

Maintenant vous allez utiliser un autre logiciel de prediction d'ORF, disponible sur le site du NCBI et nommé ORFinder

Identifiez l'ORF codante.

Afin de valider votre hypothèse quant à l'ORF la plus probable, il est necessaire d'aller identifier dans les banques de données si cette ORF code pour la protéine Bcl2. Pour cela vous allez réaliser un Blastp

Dans ORF Finder, utilisez l'option Blastp sur la banque nr. Que concluez-vous ?