silico.biotoul.fr
 

Analyse de séquences I: recherche par similarité, alignements deux à deux

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
 
(30 intermediate revisions not shown)
Line 18: Line 18:
: Combien en avez-vous ? Sélectionnez celles qui proviennent du génome humain.
: Combien en avez-vous ? Sélectionnez celles qui proviennent du génome humain.
 +
<!--
: Vérifier que ceux sont toutes des protéines codées par BCL2 et non des protéines associées à BCL2. Pour cela, parcourez quelques entrées et l'endroit dans la fiche où le nom BCL2 apparaît.
: Vérifier que ceux sont toutes des protéines codées par BCL2 et non des protéines associées à BCL2. Pour cela, parcourez quelques entrées et l'endroit dans la fiche où le nom BCL2 apparaît.
-
 
+
: Affinez votre requête en utilisant ''Advanced search'' et en spécifiant les champs des fiches ou la requête doit être effectuée, ceci afin d'identifier que les protéines humaines codées par le gène BCL2. '''Remarque :''' le bouton ''Preview'' permet de vérifier combien de fiches seront retournées par la requête.
-
: La page de recherche avancée (''Advanced search'') permet d'affiner votre requête. Exploiter au mieux les critères de recherche à votre disposition en utilisant la recherche dans certains champs des fiches pour ne rechercher que les protéines humaines codées par le gène BCL2. '''Remarque :''' le bouton ''Preview'' permet de vérifier combien de fiches seront retournées par la requête.
+
-->
-
 
+
* Restreindre la recherche aux séquences contenues dans la banque RefSeq.
-
* Restreindre la recherche à la banque RefSeq (utiliser l'onglet ''limits'').
+
: Vous devriez maintenant avoir au moins les 2 isoformes NP_000624 et NP_000648.
-
: Vous devriez maintenant avoir 2 isoformes NP_000624 et NP_000648.
+
* Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot). Les logiciels sont disponibles dans la suite [http://vm-bioinfo.toulouse.inra.fr/emboss/ EMBOSS].
* Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot). Les logiciels sont disponibles dans la suite [http://vm-bioinfo.toulouse.inra.fr/emboss/ EMBOSS].
-
:Dans un premier temps, utiliser DOTPATH qui permet de dessiner un dotplot avec une taille de mot fixée.
+
:Utiliser '''DOTPATH''' qui permet de dessiner un '''dotplot''' avec une taille de mot fixée.
-
:Quelles sont vos conclusions ?
+
:Que pouvez-vous conclure ?
== Analyse d'une séquence protéique ==
== Analyse d'une séquence protéique ==
Afin d'appréhender l'organisation structurale et la localisation cellulaire de BCL2, une analyse fine des séquences protéiques est nécessaire.
Afin d'appréhender l'organisation structurale et la localisation cellulaire de BCL2, une analyse fine des séquences protéiques est nécessaire.
-
* Allez sur le site d'[http://www.expasy.org/ Expasy]. Qu'est-ce que le serveur Expasy ?
+
* Allez sur le site d'[http://www.expasy.org/ Expasy]. Qu'est-ce que le serveur '''Expasy''' ?
-
: Parcourez les outils mis à votre disposition, soit dans le menu ''Tools'', soit à partir de la liste complète accessible depuis le lien ''full list'' dans la section ''Tools and Software'' de la page d'accueil.
+
: Les outils mis à votre disposition sont soit dans le menu ''Categories'', soit accessible à partir de la liste complète depuis le lien ''Ressources A--Z'' de la page d'accueil.
* Etudiez maintenant la plus longue des deux séquences trouvées précédemment.
* Etudiez maintenant la plus longue des deux séquences trouvées précédemment.
Line 39: Line 39:
: Trouvez un ou des programmes pour calculer le poids moléculaire et le point isoélectrique de la protéine.
: Trouvez un ou des programmes pour calculer le poids moléculaire et le point isoélectrique de la protéine.
-
: Utilisez '''ScanProsite''', '''InterPro Scan''' (lien vers l'EBI) ou '''SMART''' (lien vers SMART) pour chercher si elle contient des domaines connus. Analysez les domaines identifiés et notez leur position.
+
: Utilisez '''ScanProsite''', et '''InterPro Scan''' pour chercher si elle contient des domaines connus. Analysez les domaines identifiés et notez leur position.
-
: Avec le programme TopPred (cochez la case pour obtenir une image), recherchez si la protéine contient des domaines membranaires.
+
: Recherchez si la protéine contient des domaines membranaires.
-
 
+
-
: Effectuer une prédiction de structures secondaires avec le programme GOR.
+
* Synthétisez les différentes informations et résultats que vous avez obtenus et comparez-les avec les annotations présentes dans la fiche de la séquence.
* Synthétisez les différentes informations et résultats que vous avez obtenus et comparez-les avec les annotations présentes dans la fiche de la séquence.
* A ce stade, vous avez sûrement remarqué sur la fiche de NP_000624 la mention de l'entrée P10415 d'UniProt/SwissProt. Retournez sur le site de l'Expasy pour consulter la fiche de cette protéine.
* A ce stade, vous avez sûrement remarqué sur la fiche de NP_000624 la mention de l'entrée P10415 d'UniProt/SwissProt. Retournez sur le site de l'Expasy pour consulter la fiche de cette protéine.
-
: Parcourez la section ''General annotation (Comments)'' ; celle-ci correspond à l'annotation ajoutée par les experts.
+
: Cette séquence a t elle été vérifié manuellement par un annonateur expert ?
-
: Comparez ces annotations à celles trouvées dans la section suivante ''Gene Ontology'', par exemple en ce qui concerne sa fonction. Suivre une des références croisées vers GO (par exemple anti-apoptosis) pour apprécier la structure hiérarchique de ce vocabulaire.
+
: Comparez ces annotations à celles trouvées dans la section suivante ''Gene Ontology'', par exemple en ce qui concerne sa fonction.  
: Intéressez vous ensuite à la partie ''Sequence annotation (Features)'' et comparez les annotations à vos propres études menées précédemment.
: Intéressez vous ensuite à la partie ''Sequence annotation (Features)'' et comparez les annotations à vos propres études menées précédemment.
== Synthèse d'amorces PCR ==
== Synthèse d'amorces PCR ==
-
Suite à l'analyse ''in silico'' de vos séquences, on souhaite cloner le transcrit codant NP_000624 (P10415) dans un vecteur d'expression d' E. coli. Le laboratoire dispose actuellement du transcrit cloné dans un vecteur non adapté pour l'expression dans E. coli, il faut donc amplifier ce transcrit par PCR, réaliser une digestion et une ligation de cet insert dans le vecteur de destination d'E. coli. Pour cela différentes étapes sont nécessaires.
+
Suite à l'analyse ''in silico'' de vos séquences, on souhaite cloner le transcrit codant NP_000624 (P10415) dans un vecteur d'expression '' d'E. coli.'', il faut donc amplifier ce transcrit par PCR, puis réaliser différentes étapes pour cloner l'insert dans le vecteur d'expression ''d'E. coli''.  
-
* Identifiez en utilisant les bases de données le transcrit de NP_000624 (P10415).  
+
* Décrivez succintement les étapes de clonage a réaliser, pour obtenir le vecteur d'expression d'''E. coli''
 +
 
 +
* Identifiez en utilisant les bases de données le transcrit de NP_000624 (P10415). <!-- [494..1213] ORF, use "features visualisation" fiche Genpept -->
: Quel est son numéro d'accession dans les banques de données ?  
: Quel est son numéro d'accession dans les banques de données ?  
: En regardant les positions des motifs que vous avez trouvés, quelles parties de la séquence n'appartient pas à un domaine ?
: En regardant les positions des motifs que vous avez trouvés, quelles parties de la séquence n'appartient pas à un domaine ?
-
* Identifiez des primers (oligonucléotides) pouvant amplifier l'ensemble du transcrit codant pour NP_000624, en utilisant le logiciel Primer-Blast disponible sur la GenBank.  
+
* Identifiez des primers (oligonucléotides) pouvant amplifier l'ensemble du transcrit codant pour NP_000624, en utilisant le logiciel [http://www.ncbi.nlm.nih.gov/tools/primer-blast/ Primer Blast] disponible sur la GenBank.  
''NB: a partir de la fiche EMBL du transcrit, vous pouvez accéder directement a Primer-Blast en cliquant sur 'Pick Primers' (colonne de droite).''
''NB: a partir de la fiche EMBL du transcrit, vous pouvez accéder directement a Primer-Blast en cliquant sur 'Pick Primers' (colonne de droite).''
 +
<!-- forward : 100-800, reverse 1000-1213 -->
 +
== Recherche d'ORF ==
 +
Afin de vérifier que le vecteur d'expression obtenu est correct et contient l'insert d'interêt, le resultat du séquençage du clone est fourni dans le fichier joint [[Media:Clone_BCL2.txt|ici]]. Vous allez vérifier que ce clone code pour la protéine attendue. Pour cela, vous allez déterminer l'ORF et la position de la séquence codante la plus probable en recherchant les cadres de lecture présents.
 +
* Sur [http://vm-bioinfo.toulouse.inra.fr/emboss/ EMBOSS] dans la rubrique ''Nucleic translation'', utilisez '''Sixpack''' en spécifiant le paramètre ''ORF start with M'' à Yes.
 +
: Regarder les traductions dans les différents cadres de lecture.
 +
: Quelle ORF pourrait contenir la séquence codante ? Pourquoi ?
-
* En regardant les positions des motifs que vous avez trouvés, quelles parties de la séquences n'appartiennent pas à un domaine ?
+
* Afin de valider votre hypothèse quant à l'ORF la plus probable, il est necessaire d'aller identifier dans les banques de données si cette ORF code pour la protéine Bcl2. Pour cela vous allez réaliser une analyse [http://blast.ncbi.nlm.nih.gov/Blast.cgi Blast] (BlastP), sur le site du NCBI
-
: Les domaines protéiques peuvent être partagés par d'autres protéines. Les régions spécifiques sont donc plus probablement en dehors des domaines. Parmi ces régions, laquelle n'est pas commune à l'isoforme de cette protéine ?
+
-
 
+
-
* Il faut maintenant identifier la séquence du transcrit codant pour NP_000624 (P10415). Recherchez cette séquence ARN dans les banques de données
+
-
: Quel est son numéro d'accession ?
+
-
 
+
-
: Toujours avec EMBOSS, dans la rubrique ''Nucleic translation'', utilisez le programme '''backtranseq''' pour faire la traduction inverse (génération de l'ARNm le plus probable, à partir de la séquence protéique, en fonction de l'usage des codons propre à l'organisme sélectionné).
+
-
 
+
-
* Vérifiez via un alignement (suite EMBOSS) avec la séquence du gène BCL2 (GenBank), si la sonde générée permettrait de récupérer le cDNA codant pour BCL2 par hybridation de la banque ADNc.
+
-
 
+
-
* En fait, on dispose de la séquence du gène BCL2, donc il est préférable d'utiliser cette séquence plutôt que le résultat de backtranseq. Retournez sur le site du NCBI pour retrouvez la séquence du gène BCL2, et notamment extraire (utiliser extractseq) la région correspondant à la séquence codante extraite précédemment.
+
<!--
<!--
-
* Pour simuler l'hybridation de cette sonde avec la banque d'ADNc, vous allez effectuer une recherche par similarité contre les séquences d'ARNm humain.
+
>Sequencage_cloneBCL2_2_ORF5  Translation of Sequencage_cloneBCL2 in frame 2, ORF 5, threshold 1, 239aa
-
: Sur le site du NCBI, trouvez BLAST, puis ''nucleotide blast'' qui correspond à blastn (recherche dans une banque nucléique à partir d'une séquence nucléique).
+
MAHAGRTGYDNREIVMKYIHYKLSQRGYEWDAGDVGAAPPGAAPAPGIFSSQPGHTPHPA
-
-->
+
ASRDPVARTSPLQTPAAPGAAAGPALSPVPPVVHLTLRQAGDDFSRRYRRDFAEMSSQLH
-
 
+
LTPFTARGRFATVVEELFRDGVNWGRIVAFFEFGGVMCVESVNREMSPLVDNIALWMTEY
-
== Recherche d'ORF ==
+
LNRHLHTWIQDNGGWDAFVELYGPSMRPLFDFSWLSLKTLLSLALVGACITLGAYLGHK
-
Afin de vérifier le clone obtenu suite au criblage de la banque d'ADNc, un séquençage est réalisé et la séquence obtenue est disponible [[Media:Clone_BCL2.txt|ici]]. Vous allez vérifier que cet ADNc code pour la protéine attendue. Pour cela, vous allez déterminer l'ORF et la position de la séquence codante la plus probable de l'ADNc en recherchant les cadres de lecture présents.
+
-
 
+
-
* Sur EMBOSS, dans la rubrique ''Nucleic translation'', utilisez '''sixpack''' en spécifiant le paramètre ''ORF start with M'' à Yes.
+
-
: Regarder les traductions dans les différents cadres de lecture.
+
-
 
+
-
: Quelle ORF vous pourrait contenir la séquence codante ? Pourquoi ?
+
* Utilisez maintenant le programme '''ORF Finder''' au NCBI pour effectuer la recherche de séquence codante. Interprétez le graphique et les résultats obtenus.
* Utilisez maintenant le programme '''ORF Finder''' au NCBI pour effectuer la recherche de séquence codante. Interprétez le graphique et les résultats obtenus.
-
: Avec l'option blastp sur la banque ''nr'', disponible dans ORF Finder, identifiez l'ORF contenant la séquence codante.
+
* Afin de valider votre hypothèse quant à l'ORF la plus probable, il est necessaire d'aller identifier dans les banques de données si cette ORF code pour la protéine Bcl2. Pour cela vous allez réaliser un Blastp
-
= Analyse de la famille protéique =
+
-->
-
 
+
-
== Recherche dans les banques par similitude de séquences ==
+
-
Utiliser votre protéine (P10415) comme sonde pour une recherche avec le logiciel BlastP sur le site du [http://www.ncbi.nlm.nih.gov/ NCBI], en choisissant soit la banque nr, soit la banque SwissProt. Différence entre les deux résultats?
+
-
 
+
-
Les résultats du programme Blast vous ont montré que votre séquence appartenait à une famille bien représentée dans les banques de données. Vous disposez donc d'un ensemble de séquences qui vont vous permettre de faire une analyse plus approfondie, notamment de rechercher la présence de régions conservées dans ces séquences, qui pourront être des sites privilégiés pour des expériences de mutagénèse. Pour cela, on réalisera un alignement multiple des séquences.
+
-
 
+
-
== Alignement multiple ==
+
-
A partir des résultats obtenus à l'exercice précédent avec la banque SwissProt, sélectionner un ensemble de séquences pour réaliser l'alignement multiple (une dizaine).  '''Attention''', si vous voulez faire ressortir des zones conservées versus des zones peu ou pas conservées au cours de l'évolution, il faut construire un échantillon dans lequel vous prendrez en compte '''des séquences proches mais aussi des séquences éloignées'''. '''Ne pas oublier''' d'inclure la protéine d'intérêt.
+
-
Les séquences doivent être extraites au format FASTA. Pour cela, dans la page de réponse de BlastP, cocher les séquences que vous voulez conserver puis à la fin de la page, cliquer sur ''Get selected sequences''. Dans la nouvelle page, choisir dans le menu ''Display FASTA'' et dans le menu ''Send to Text'' ou ''Send to File''. Sauvegarder les séquences dans un fichier texte.
+
-
Réaliser l'alignement multiple en utilisant le programme ClustalW sur le serveur [http://pbil.univ-lyon1.fr/ PBIL]. Sauvegarder cet alignement sur votre disque (sur la page de réponse, aller à Result files (text), cliquer sur le lien CLUSTALW, sauvegarder la page).
+
-
Analyser l'alignement en repérant notamment les régions conservées.
+
-
 
+
-
 
+
-
L'étape suivante consiste à essayer de trouver une explication fonctionnelle et/ou structurale à ces régions conservées.
+
-
La banque de données PROSITE renferme les signatures protéiques qui ont été établies pour différentes familles de protéines à partir d'alignements multiples dans lesquels les zones conservées ont été repérées. Cette conservation peut être représentée sous forme de motifs consensus ou sous forme de profils matriciels. Ces motifs sont ensuite recherchés dans l'ensemble des séquences, et s'ils ne sont trouvés que dans les séquences appartenant à la famille étudiée, ils sont considérés comme caractéristiques (spécifiques) de cette famille et constituent une signature protéique. Certains motifs peuvent être associés à une fonction (site catalytique, site de liaison à un ion, ''etc'').
+
-
 
+
-
 
+
-
Est-ce que les zones que vous avez repérées correspondent aux motifs et domaines identifiés en tout début d'analyse (section ''Analyse d'une séquence protéique'', partie ScanProsite et InterPro Scan) ?
+
-
 
+
-
== Recherche de motifs et de domaines dans les séquences ==
+
-
A partir de l'alignement multiple, établir un motif PROSITE correspondant à une zone conservée que vous espérez spécifique de la famille.
+
-
Exemple d'un motif PROSITE : <tt>G-A-[ILV]-X-D</tt>. Dans les cas où l'acide aminé est strictement conservé dans toutes les séquences alignées, on fait figurer son code à une lettre. C'est le cas ici des acides aminés G,A et D. Quand à une même position de l'alignement, on observe plusieurs acides aminés, on les énumère entre crochets ([ILV]). Si le nombre d'acides aminés différents est trop important, on remplace cette énumération par X qui veut dire n'importe quel acide aminé. Quand on recherchera ce motif dans une séquence, on retiendra comme occurrences GAIMD, GAIRD, GALMD, GAVKD, ''etc''.
+
-
 
+
-
Quand vous avez établi votre motif, rechercher sa présence dans les séquences de SwissProt et TrEMBL (logiciel ScanProsite). D'après les résultats obtenus, pensez-vous qu'il est spécifique aux séquences de la famille à laquelle appartient votre protéine ?
+
-
Pour avoir une idée de la répartition des protéines contenant ce motif dans les espèces, aller au bas de la page des résultats et cliquer sur ''Taxonomic Distribution of matched entries''. Pour accéder aux fiches de ces protéines et/ou à leur séquence en format FASTA, sélectionner les espèces qui vous intéressent (à partir de l'arbre), puis cliquer sur le nomber de séquences à droite du nom du groupe taxonomique. Vous obtenez alors les liens vers les fiches dans la(es) base(s) de données. Pour récupérer les séquences en format FASTA, sélectionner vos séquences puis cliquer sur le bouton ''Retrieve'' en bas de page.
+
Maintenant vous allez utiliser un autre logiciel de prediction d'ORF, disponible sur le site du NCBI et nommé [http://www.ncbi.nlm.nih.gov/projects/gorf/ ORFinder]
 +
* Identifiez l'ORF codante.
 +
Afin de valider votre hypothèse quant à l'ORF la plus probable, il est necessaire d'aller identifier dans les banques de données si cette ORF code pour la protéine Bcl2. Pour cela vous allez réaliser un Blastp
-
Refaire l'alignement multiple avec ce jeu de séquences plus votre protéine. Observez-vous des différences par rapport au premier ?
+
*Dans ORF Finder, utilisez l'option Blastp sur la banque ''nr''. Que concluez-vous ?

Current revision as of 14:49, 6 November 2015

Contents

Contexte Scientifique

Vous venez d'arriver dans une équipe de recherche travaillant sur le gène BCL2 humain, impliqué dans différents cancers. Une analyse fonctionnelle de BCL2 doit être réalisée chez la souris afin de mieux comprendre le rôle de la protéine codée par BCL2. Pour cela, il est nécessaire de disposer d'un anticorps dirigé contre un domaine de BCL2 et donc de produire ce domaine de manière hétérologue dans Escherichia coli, afin ensuite d'immuniser des lapins.

Ci-dessous une sélection des sites Internet qui vous seront nécessaires au cours des TD :

  • Génopôle Toulouse
  • EBI European Bioinformatics Institute (EMBL, GB)
  • NCBI National Center for Biotechnology Information (NIH, USA)
  • Expasy Expert Protein Analysis System (Swiss Institute of Bioinformatics, Suisse)
  • PBIL Pôle Bio-Informatique Lyonnais (CNRS, Lyon)
  • Institut Pasteur


Recherche dans les banques

Dans un premier temps, il est nécessaire de récupérer les séquences humaines codées par BCL2.

  • Sur le site du NCBI, recherchez les protéines codées par le gène BCL2.
Combien en avez-vous ? Sélectionnez celles qui proviennent du génome humain.
  • Restreindre la recherche aux séquences contenues dans la banque RefSeq.
Vous devriez maintenant avoir au moins les 2 isoformes NP_000624 et NP_000648.
  • Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot). Les logiciels sont disponibles dans la suite EMBOSS.
Utiliser DOTPATH qui permet de dessiner un dotplot avec une taille de mot fixée.
Que pouvez-vous conclure ?

Analyse d'une séquence protéique

Afin d'appréhender l'organisation structurale et la localisation cellulaire de BCL2, une analyse fine des séquences protéiques est nécessaire.

  • Allez sur le site d'Expasy. Qu'est-ce que le serveur Expasy ?
Les outils mis à votre disposition sont soit dans le menu Categories, soit accessible à partir de la liste complète depuis le lien Ressources A--Z de la page d'accueil.
  • Etudiez maintenant la plus longue des deux séquences trouvées précédemment.
Trouvez un ou des programmes pour calculer le poids moléculaire et le point isoélectrique de la protéine.
Utilisez ScanProsite, et InterPro Scan pour chercher si elle contient des domaines connus. Analysez les domaines identifiés et notez leur position.
Recherchez si la protéine contient des domaines membranaires.
  • Synthétisez les différentes informations et résultats que vous avez obtenus et comparez-les avec les annotations présentes dans la fiche de la séquence.
  • A ce stade, vous avez sûrement remarqué sur la fiche de NP_000624 la mention de l'entrée P10415 d'UniProt/SwissProt. Retournez sur le site de l'Expasy pour consulter la fiche de cette protéine.
Cette séquence a t elle été vérifié manuellement par un annonateur expert ?
Comparez ces annotations à celles trouvées dans la section suivante Gene Ontology, par exemple en ce qui concerne sa fonction.
Intéressez vous ensuite à la partie Sequence annotation (Features) et comparez les annotations à vos propres études menées précédemment.

Synthèse d'amorces PCR

Suite à l'analyse in silico de vos séquences, on souhaite cloner le transcrit codant NP_000624 (P10415) dans un vecteur d'expression d'E. coli., il faut donc amplifier ce transcrit par PCR, puis réaliser différentes étapes pour cloner l'insert dans le vecteur d'expression d'E. coli.

  • Décrivez succintement les étapes de clonage a réaliser, pour obtenir le vecteur d'expression d'E. coli
  • Identifiez en utilisant les bases de données le transcrit de NP_000624 (P10415).
Quel est son numéro d'accession dans les banques de données ?
En regardant les positions des motifs que vous avez trouvés, quelles parties de la séquence n'appartient pas à un domaine ?
  • Identifiez des primers (oligonucléotides) pouvant amplifier l'ensemble du transcrit codant pour NP_000624, en utilisant le logiciel Primer Blast disponible sur la GenBank.

NB: a partir de la fiche EMBL du transcrit, vous pouvez accéder directement a Primer-Blast en cliquant sur 'Pick Primers' (colonne de droite).

Recherche d'ORF

Afin de vérifier que le vecteur d'expression obtenu est correct et contient l'insert d'interêt, le resultat du séquençage du clone est fourni dans le fichier joint ici. Vous allez vérifier que ce clone code pour la protéine attendue. Pour cela, vous allez déterminer l'ORF et la position de la séquence codante la plus probable en recherchant les cadres de lecture présents.

  • Sur EMBOSS dans la rubrique Nucleic translation, utilisez Sixpack en spécifiant le paramètre ORF start with M à Yes.
Regarder les traductions dans les différents cadres de lecture.
Quelle ORF pourrait contenir la séquence codante ? Pourquoi ?
  • Afin de valider votre hypothèse quant à l'ORF la plus probable, il est necessaire d'aller identifier dans les banques de données si cette ORF code pour la protéine Bcl2. Pour cela vous allez réaliser une analyse Blast (BlastP), sur le site du NCBI


Maintenant vous allez utiliser un autre logiciel de prediction d'ORF, disponible sur le site du NCBI et nommé ORFinder

  • Identifiez l'ORF codante.

Afin de valider votre hypothèse quant à l'ORF la plus probable, il est necessaire d'aller identifier dans les banques de données si cette ORF code pour la protéine Bcl2. Pour cela vous allez réaliser un Blastp

  • Dans ORF Finder, utilisez l'option Blastp sur la banque nr. Que concluez-vous ?