Revision as of 09:58, 22 February 2012

TP Comparaison de Séquence

Cette séance est inspirée d'un TP de Jean-Stéphane Varré Lill).

Introduction

Les logiciels que nous allons utiliser sont majoritairement issus de la suite EMBOSS (EMBOSS homepage). Ils sont installés sur plusieurs serveurs dont celui de l'institut Pasteur Institut Pasteur, celui de la Génopole de Toulouse et de Lille. Ces logiciels possèdent tous la même interfaçe, pour chacun d'entre-eux vous devez saisir:

votre email (ici on se contentera de mettre 'a') (sauf sur le site toulousain)
vos données (le plus souvent au format FASTA)
les paramètres du programme

En cliquant sur le nom du programme (en haut à gauche) vous aurez des informations sur ce qu'il fait et sur les paramètres.

Pour chacun des logiciels, il existe deux interfaçes, l'une simple, l'autre dite avancée. Dans la version simple, seuls quelques paramètres peuvent être modifiés, les autres étant choisis par défaut.

Vous devrez stocker des séquences et des résultats dans des fichiers. Pour ce faire, vous aurez simplement à enregistrer ces fichiers grâce aux menus de Netscape.

Ci-dessous une sélection des sites Internet qui vous seront également nécessaires au cours des séances:

Génopôle Toulouse
EBI European Bioinformatics Institute (EMBL, GB)
NCBI National Center for Biotechnology Information (NIH, USA)
Expasy Expert Protein Analysis System (Swiss Institute of Bioinformatics, Suisse)
PBIL Pôle Bio-Informatique Lyonnais (CNRS, Lyon)
Institut Pasteur

Recherches avec le dotplot et les outils d'alignement

Exercice 1

Nous allons utiliser deux logiciels pour effectuer les dotplot.

dotpath permet de dessiner un dotplot avec une taille de mot fixée.
dotmatcher permet de filtrer les fenêtres avec un seuil.

Récupérez les deux séquences Xlev_Rhodop1.seq et Xlev_Rhodop2.seq.
1°) Essayer le logiciel dotpath avec la taille de fenêtre par défaut et en sélectionnant l'option 'Display the overlapping matches'. Essayer avec d'autres tailles de fenêtre. 2°) En déselectionnant l'option 'Display the overlapping matches', vous demandez au logiciel de ne conserver que les fenêtres non chevauchantes. Observez le résultat avec 4 comme taille de fenêtre. 3°) Essayer le logiciel dotmatcher avec les paramètres par défaut. Faites varier le paramètre de seuil jusqu'à retrouver le résulat obtenu avec dotpath.

Que constatez-vous? En fait la première séquence correspond à celle du gène de la rhodopsine chez Xenopus laevis et la seconde à celle de son ARNm. Combien le gène compte-t-il d'exons?

Nous allons utiliser 2 logiciels d'alignement:

stretcher fournit un alignement global entre deux séquences.
water fournit un alignement local entre deux séquences.

1°) Testez ces deux logiciels avec les deux séquences précédentes en fixant comme pénalité d'ouverture de gap 10 et comme pénalité d'extension de gap 0.5 (0,5 pour strecher). Quelle(s) différence(s) observez-vous? 2°) A l'aide des alignements obtenus, proposez un découpage en exons/introns de la séquence Xlev_Rhodop1.seq.
3°) Récupérez l'entrée EMBL correspondant à cette séquence. Pour cela allez sur le site de l'EBI

Exercice 2: séquence nucléique/séquence protéique

Recupérez les quatres séquences Pl6_hum_dna.seq, Pl6_hum_prot.seq, Pl6_mouse_dna.seq, et Pl6_mouse_prot.seq.

1°) Construisez le dotplot des séquences ADN puis le dotplot des séquences protéiques avec dotmatcher. Sur quel type de séquence la similarité est-elle la plus visible ?
2°) Comparez maintenant les séquences ADN avec l'algorithme d'alignement global stretcher et l'algorithme d'alignement local water en utilisant les mêmes pénalités de gap que dans l'exercice précédent. Lequel choisireriez-vous? Pourquoi?
3°) Refaites les alignements avec les séquences protéiques. Observez-vous des différences? Pourquoi?

Exercice 3: conservation de domaine et analyse d'une séquence

Vous allez maintenant comparer deux autres séquences: ce sont deux facteurs de transcription krox 24 et sp1, contenus dans les fichiers Krox24.seq et sp1.seq.

1°) Construisez un dotplot avec dotmatcher de ces deux séquences.Vous devez observer une similitude locale.
2°) Comparez ensuite les deux séquences avec un alignement local en utilisant matcher (paramètres par défaut Gap penalty 14 et Gap length penalty 4). Est-ce que vous retrouvez le résultat du dotplot?
3°) Consultez les entrées SwissProt (Krox24 accession number P18146 et sp1 accession number P08047)pour déterminer à quoi correspond cette similitude locale. Pour cela, on pourra se rendre sur le serveur Expasy. Est-ce que vos observations sont cohérentes avec les annotations de SwissProt? Comment pouvez-vous le vérifier?

Le dotplot peut également être utilisé pour étudier les régularités structurelles d'une séquence. Vous allez tester cette approche sur les deux exemples suivants.

Localisation de répétitions : analysez avec dotpath la séquence de rétrotransposon de tabac contenue dans le fichier Tnt1.seq (cochez la case 'Display the overlapping matches'). En jouant sur le paramètre de taille de fénêtre, identifiez le nombre de répétitions significatives ?
Faible complexité : de la même façon analysez la séquence contenue dans falciparum.seq. Qu'observez-vous? A quoi cela correspond dans la séquence.

Significativité des scores

Le logiciel prss permet de tester la significativité entre deux séquences protéiques. Il crée une séquence aléatoire de même composition que la seconde séquence fournie et effectue un algorithme d'alignement. Il répète cela plusieurs fois.

1°) Allez chercher dans une banque deux séquences protéiques de longueurs similaires et qui n'ont a priori rien à voir. Testez prss avec ces deux séquences. Le résultat est-il celui attendu.
2°) Refaites le même test mais avec deux séquences proches.

Enzymes TPP (Thiamine Phosphate dependent enzymes)

Récupérer les séquences des deux protéines ILV1_TOBAC et ILVB_ARATH.
Afin d'avoir une idée de la ressemblance entre ces séquences, effectuez un dotplot avec dotpath.

Pénalités associés aux gaps

1°) Effectuez un alignement global avec le logiciel stretcher en prenant comme paramètres : pénalité d'ouverture de gap = 2, pénalité d'extension de gap = 2, matrice de scores = EPAM60. Enregistrez le fichier résultat et retennez la valeur du score et du % d'identité.

2°) Effectuez maintenant un alignement global avec le logiciel stretcher en prenant comme paramètres : pénalité d'ouverture de gap = 12, pénalité d'extension de gap = 2, matrice de scores = EPAM60. Comparez le résultat avec l'alignement précédent.
Quelles différences remarquez-vous ? Quelle est celui des deux alignements qui vous paraît le plus pertinent ?

3°) L'alignement obtenu est spécifique aux valeurs de paramètres, en particulier au fait que nous sommes dans le cadre d'une fonction de gap linéaire.Nous voyons ici l'effet des fonctions de gaps.

@@ Line 76: / Line 76: @@
 '''1°)''' Allez chercher dans une banque deux séquences protéiques de longueurs similaires et qui n'ont a priori rien à voir. Testez prss avec ces deux séquences. Le résultat est-il celui attendu.  <br/>
 '''2°)''' Refaites le même test mais avec deux séquences proches.
+==Enzymes TPP (Thiamine Phosphate dependent enzymes)==
+Récupérer les séquences des deux protéines ILV1_TOBAC et ILVB_ARATH. <br/>
+Afin d'avoir une idée de la ressemblance entre ces séquences, effectuez un dotplot avec dotpath.
+= Pénalités associés aux gaps=
+'''1°)''' Effectuez un alignement global avec le logiciel stretcher en prenant comme paramètres : pénalité d'ouverture de gap = 2, pénalité d'extension de gap = 2, matrice de scores = EPAM60. Enregistrez le fichier résultat et retennez la valeur du score et du % d'identité. <br/>
+'''2°)''' Effectuez maintenant un alignement global avec le logiciel stretcher en prenant comme paramètres : pénalité d'ouverture de gap = 12, pénalité d'extension de gap = 2, matrice de scores = EPAM60. Comparez le résultat avec l'alignement précédent.<br/>
+Quelles différences remarquez-vous ? Quelle est celui des deux alignements qui vous paraît le plus pertinent ? <br/>
+'''3°)''' L'alignement obtenu est spécifique aux valeurs de paramètres, en particulier au fait que nous sommes dans le cadre d'une fonction de gap linéaire.Nous voyons ici l'effet des fonctions de gaps.<br/>

Bioanalyse TD Comparaison de deux sequences

From silico.biotoul.fr