From silico.biotoul.fr

TD Comparaison de deux séquences

Cette séance est inspirée d'un TP de Jean-Stéphane Varré (LIFL,Lille).

Introduction

Les logiciels que nous allons utiliser sont majoritairement issus de la suite EMBOSS (EMBOSS homepage). Ils sont installés sur plusieurs serveurs dont celui de l'institut Pasteur Institut Pasteur, celui de la Génopole de Toulouse. Ces logiciels possèdent tous la même interfaçe, pour chacun d'entre-eux vous devez saisir:

votre email (ici on se contentera de mettre 'a') (sauf sur le site toulousain)
vos données (le plus souvent au format FASTA)
les paramètres du programme

En cliquant sur le nom du programme (en haut à gauche) vous aurez des informations sur ce qu'il fait et sur les paramètres.

Pour chacun des logiciels, il existe deux interfaçes, l'une simple, l'autre dite avancée. Dans la version simple, seuls quelques paramètres peuvent être modifiés, les autres étant choisis par défaut.

Vous devrez stocker des séquences et des résultats dans des fichiers. Pour ce faire, vous aurez simplement à enregistrer ces fichiers grâce aux menus de Netscape.

Ci-dessous une sélection des sites Internet qui vous seront également nécessaires au cours des séances:

Génopôle Toulouse
EBI European Bioinformatics Institute (EMBL, GB)
NCBI National Center for Biotechnology Information (NIH, USA)
UniProtKB
Expasy Expert Protein Analysis System (Swiss Institute of Bioinformatics, Suisse)
Pôle Rhône-Alpes de Bioinformatique Site Doua
Institut Pasteur

Recherches avec le dotplot et les outils d'alignement

Exercice 1

Nous allons utiliser deux logiciels pour effectuer les dotplot.

dotpath permet de dessiner un dotplot avec une taille de mot fixée.
dotmatcher permet de filtrer les fenêtres avec un seuil.

Ces 2 logiciels sont disponibles dans la suite EMBOSS de la Génopole de Toulouse.

Récupérez les deux séquences Xlev_Rhodop1 et Xlev_Rhodop2.seq.
1°) Essayer le logiciel dotpath avec la taille de fenêtre par défaut et en sélectionnant l'option 'Display the overlapping matches'. Essayer avec d'autres tailles de fenêtre.
2°) En déselectionnant l'option 'Display the overlapping matches', vous demandez au logiciel de ne conserver que les fenêtres non chevauchantes. Observez le résultat avec 4 comme taille de fenêtre.
3°) Essayer le logiciel dotmatcher avec les paramètres par défaut. Faites varier le paramètre de seuil jusqu'à retrouver le résulat obtenu avec dotpath.

Que constatez-vous? En fait la première séquence correspond à celle du gène de la rhodopsine chez Xenopus laevis et la seconde à celle de son ARNm. Combien le gène compte-t-il d'exons?

Nous allons utiliser 2 logiciels d'alignement:

stretcher fournit un alignement global entre deux séquences.
water (ou matcher) fournit un alignement local entre deux séquences.

4°) Testez ces deux logiciels avec les deux séquences précédentes en fixant comme pénalité d'ouverture de gap 10 et comme pénalité d'extension de gap 1 (1 pour strecher). Quelle(s) différence(s) observez-vous?
5°) A l'aide des alignements obtenus, proposez un découpage en exons/introns de la séquence Xlev_Rhodop1.seq.
6°) Récupérez l'entrée EMBL correspondant à cette séquence. Pour cela allez sur le site de l'EBI

Exercice 2: séquence nucléique/séquence protéique

Recupérez les quatres séquences Pl6_hum_dna , Pl6_hum_prot, Pl6_mouse_dna, et Pl6_mouse_prot.

1°) Construisez le dotplot des séquences ADN puis le dotplot des séquences protéiques avec dotmatcher. Sur quel type de séquence la similarité est-elle la plus visible ?
2°) Comparez maintenant les séquences ADN avec l'algorithme d'alignement global stretcher et l'algorithme d'alignement local water en utilisant les mêmes pénalités de gap que dans l'exercice précédent. Lequel choisireriez-vous? Pourquoi?
3°) Refaites les alignements avec les séquences protéiques. Observez-vous des différences? Pourquoi?

Exercice 3: conservation de domaine et analyse d'une séquence

Vous allez maintenant comparer deux autres séquences: ce sont deux facteurs de transcription krox 24 et sp1, contenus dans les fichiers Krox24 et sp1.

1°) Construisez un dotplot avec dotmatcher de ces deux séquences.Vous devez observer une similitude locale.
2°) Comparez ensuite les deux séquences avec un alignement local en utilisant matcher (paramètres par défaut Gap penalty 14 et Gap length penalty 4). Est-ce que vous retrouvez le résultat du dotplot?
3°) Consultez les entrées SwissProt (Krox24 accession number P18146 et sp1 accession number P08047)pour déterminer à quoi correspond cette similitude locale. Pour cela, on pourra se rendre sur le serveur du site UniProtKB. Est-ce que vos observations sont cohérentes avec les annotations de SwissProt? Comment pouvez-vous le vérifier?

Le dotplot peut également être utilisé pour étudier les régularités structurelles d'une séquence. Vous allez tester cette approche sur les deux exemples suivants.

Localisation de répétitions : analysez avec dotpath la séquence de rétrotransposon de tabac contenue dans le fichier Transposon Tnt1 (cochez la case 'Display the overlapping matches'). En jouant sur le paramètre de taille de fénêtre, identifiez le nombre de répétitions significatives ?
Faible complexité : de la même façon analysez la séquence contenue dans Plasmodium falciparum. Qu'observez-vous? A quoi cela correspond dans la séquence.

Significativité des scores

Le logiciel prss permet de tester la significativité entre deux séquences protéiques. Il crée une séquence aléatoire de même composition que la seconde séquence fournie et effectue un algorithme d'alignement. Il répète cela plusieurs fois.

1°) Tester ce programme sur les deux séquences contenues dans le fichier suivant jeu test. Ces deux séquences protéiques sont de longueurs similaires mais ont des fonctions différentes. Le résultat est-il celui attendu.
2°) Récupérer les séquences des deux protéines ILV1_TOBAC et ILVB_ARATH.
Refaites le même test mais avec deux séquences proches.

Enzymes TPP (Thiamine Phosphate dependent enzymes)

Avec les séquences des deux protéines récupérées à l'exercice précédent ILV1_TOBAC et ILVB_ARATH, effectuez un dotplot avec dotpath afin d'avoir une idée de la ressemblance entre ces séquences.

Pénalités associés aux gaps

1°) Effectuez un alignement global avec le logiciel stretcher en prenant comme paramètres : pénalité d'ouverture de gap = 2, pénalité d'extension de gap = 2, matrice de scores = EPAM60. Enregistrez le fichier résultat et retennez la valeur du score et du % d'identité.

2°) Effectuez maintenant un alignement global avec le logiciel stretcher en prenant comme paramètres : pénalité d'ouverture de gap = 12, pénalité d'extension de gap = 2, matrice de scores = EPAM60. Comparez le résultat avec l'alignement précédent.
Quelles différences remarquez-vous ? Quelle est celui des deux alignements qui vous paraît le plus pertinent ?

L'alignement obtenu est spécifique aux valeurs de paramètres, en particulier au fait que nous sommes dans le cadre d'une fonction de gap linéaire.Nous voyons ici l'effet des fonctions de gaps.

Matrices de Score

Récupérer la protéine PDC1_MAIZE.
Les séquences précédentes (ILV1_TOB et ILVB_ARATH) sont de la famille des enzymes Thiamine Pyrophosphate (TPP). PDC1 est également de cette famille mais plus éloignée.

1°) Effectuez un alignement global entre ILVB_ARATH et PDC1_MAIZE avec stretcher avec comme paramètresla matrice par défaut EBLOSUM62, ouverture de gap=12, extension de gap=2. Remarquez combien le score de cet alignement et le pourcentage d'identité sont faibles. Pensez-vous que ce soit un bon alignement ?
Pensez-vous que la matrice BLOSUM62 soit adéquat dans ce cadre. Quelle matrice pourrait être meilleure ? Pourquoi ?

2°) Essayons avec les matrices PAM.Construisez les alignements avec PAM30 et PAM350. Quel est le meilleur alignement ? Etait-ce prévisible?

Il faut retenir que les matrices de scores affectent les résultats d'un alignement et qu'il est difficile de juger de la qualité d'un alignement de deux séquences. Le choix de la matrice dépend de la divergence qu'on les deux séquences étudiées, les meilleurs résultats étant obtenus lorsque on utilise la matrice la plus sensible par rapport au niveau de divergence réel des séquences.

Alignement local

Les alignements locaux sont souvent plus utiles que les alignements globaux. Les séquences proches partagent le plus souvent des régions similaires et non leur totalité.Nous allons tenter d'identifier si un fragment inconnu de protéine est relatif aux deux protéines précédentes ILVB_ARATH et PDC1_MAIZE.

1°) Récupérer la séquence inconnue suivante : frag_new.
2°) Effectuez un alignement global avec stretcher entre ce peptide et ILV1_TOBAC avec comme paramètres la matrice de score EBLOSUM45 et le jeu de pénalités de gaps 12/2. Que pensez-vous de cet alignement ? Comment expliquez-vous ce résultat ?
3°) Faites maintenant un alignement local avec matcher avec les mêmes paramètres. Choisissez de voir les 10 meilleurs alignements locaux.

Bioanalyse TD Comparaison de deux sequences