silico.biotoul.fr
 

TD2 Genome Selection Plantes

From silico.biotoul.fr

Revision as of 12:51, 28 September 2016 by Gaulin (Talk | contribs)
Jump to: navigation, search

Contents

Objectifs

Ce TD a pour but d'apprendre a comparer des séquences deux a deux via différentes methodes (matrice de point, alignement global et local)

Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot)

  • Rechercher les 2 séquences enregistrées sous les numéros d'accession P10415 et Q64373
  • Que pouvez vous dire sur ces 2 séquences ?
  • Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot).

Les logiciels sont disponibles dans la suite EMBOSS.

Utiliser DOTPATH qui permet de dessiner un dotplot avec une taille de mot fixée.
Que pouvez-vous conclure ?

Exercice 2: Comparaison de 2 séquences par alignement global et local

Nous allons continuer la comparaison entre nos 2 séquences en utilisant des méthodologies d'alignement permettant d'évaluer la significativité de l'alignement

  • Faites un alignement global (de bout à bout) entre les 2 séquences avec Needle disponible sur EMBOSS
Qu'observez vous ?
Combien y a-t-il de gaps ? A quoi correspondent-ils ?
A quoi correspond le pourcentage de similarité ?
Quels sont les paramètres de calcul du score ?
Votre alignement est-il significatif ?
  • Faites un alignement local avec Matcher disponible sur EMBOSS
Qu'observez-vous ?
Demandez à voir d'autres alignements.
Sont-ils significatifs ?

Exercice 3 : Analyse d'une séquence protéique

Afin d'appréhender l'organisation structurale et la localisation cellulaire de BCL2, une analyse fine des séquences protéiques est nécessaire.

  • Allez sur le site d'Expasy. Qu'est-ce que le serveur Expasy ?
Les outils mis à votre disposition sont soit dans le menu Categories, soit accessible à partir de la liste complète depuis le lien Ressources A--Z de la page d'accueil.
  • Etudiez maintenant la plus longue des deux séquences trouvées précédemment.
Trouvez un ou des programmes pour calculer le poids moléculaire et le point isoélectrique de la protéine.
Utilisez ScanProsite, et InterPro Scan pour chercher si elle contient des domaines connus. Analysez les domaines identifiés et notez leur position.
Recherchez si la protéine contient des domaines membranaires.
  • Synthétisez les différentes informations et résultats que vous avez obtenus et comparez-les avec les annotations présentes dans la fiche de la séquence.

Exercice 3 : Comparaison de plusieurs séquences par alignement multiple

L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'en définir les liens évolutifs.

  • Réalisez un Blast avec P10415 sur la banque SwissProt
  • Sélectionner un ensemble de séquences pour réaliser l'alignement multiple (une dizaine).

ATTENTION: si vous voulez faire ressortir des zones conservées versus des zones peu ou pas conservées au cours de l'évolution, il faut construire un échantillon dans lequel vous prendrez en compte des séquences proches mais aussi des séquences éloignées. Ne pas oublier d'inclure la protéine d'intérêt P10415

Les séquences doivent être extraites au format FASTA. Pour cela, dans la page de réponse de BlastP, cocher les séquences que vous voulez conserver puis à la fin de la page, cliquer sur Get selected sequences. Dans la nouvelle page, choisir dans le menu Display FASTA (text). Sauvegarder les séquences dans un fichier texte.

  • Sur le site de l'EBI utiliser MAFFT pour construire un alignement multiple (dans Services => Proteins => MAFFT, choisir Output format : Clustal) : regarder l'alignement, et garder cette page ouverte !
  • Visualiser l'alignement soit avec Jalview (dans Result summary) soit avec Mview (toujours à l'EBI) : regarder l'alignement. Où sont les parties conservées ? Voyez-vous apparaitre des groupes de séquences ?
  • Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap)
   Pour vous aider, voici la début d'une signature (ou pattern) : Q-L-x(3)-P-x(6)-[FY]-x(2)-V-x(3)-[LVF]-[FGD]-x(2,8)-[GPS]

Vous avez probablement quelque chose d'approchant dans votre alignement, traduisant que :

Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement
x(3) : 3 colonnes avec des acides aminés variables
[FY] : dans cette colonne seuls les acides aminés F ou Y sont présents
x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences
  • Tester votre signature sur ScanProsite (choisir l'option 2) contre SwissProt ou trEMBL (plus long !) : les séquences obtenues appartiennent-elles à la famille des BCL2 ou BCL2-like ? Retrouvez-vous les mêmes organismes que précédemment ? en avez-vous d'autres ?