silico.biotoul.fr
 

TD2 Bioanalyse

From silico.biotoul.fr

Revision as of 09:31, 10 September 2016 by Gaulin (Talk | contribs)
Jump to: navigation, search

Contents

OBJECTIFS DU TP

   Savoir faire et interpréter un dotplot pour comparer rapidement 2 séquences
   Comprendre les différences entre les méthodes d'alignement : local et global, semi-global
   Confronter les résultats d'alignement aux annotations

Pour tous les exercices, nous utiliserons la suite "EMBOSS". Cette suite logicielle est disponible sur plusieurs serveurs. Nous utiliserons la version mise à disposition par la Genopole de Toulouse sur ce site

EXERCICE 1 : comparaison de 2 séquences d'ADN

Nous allons utiliser deux logiciels pour effectuer les dotplot.

  • dotpath permet de dessiner un dotplot avec une taille de mot fixée.
  • dotmatcher permet de filtrer les fenêtres avec un seuil.

Récupérez les deux séquences Xlev_Rhodop1 et Xlev_Rhodop2.seq

1/ Essayer le logiciel dotpath avec la taille de fenêtre par défaut et en sélectionnant l'option 'Display the overlapping matches'. Essayer avec d'autres tailles de fenêtre.

2/ En déselectionnant l'option 'Display the overlapping matches', vous demandez au logiciel de ne conserver que les fenêtres non chevauchantes. Observez le résultat avec 4 comme taille de fenêtre.

3/ Essayer le logiciel dotmatcher avec les paramètres par défaut. Faites varier le paramètre de seuil jusqu'à retrouver le résulat obtenu avec dotpath. Que constatez-vous ?

En fait la première séquence correspond à celle du gène de la rhodopsine chez Xenopus laevis et la seconde à celle de son ARNm. Combien le gène compte-t-il d'exons ?

4/ Réaliser maintenant un alignement global de ces 2 séquences avec needle (paramètres par défaut) : proposez un découpage en exons/introns de la séquence Xlev_Rhodop1.

5/ Comparer ce découpage avec l'annotation de la séquence en la recherchant sur le site du NCBI

EXERCICE 2 : un cas d'école pour comparer alignement local et global

Voici 2 séquences, au format FASTA :

>prot1

MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS

>prot2

MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI

1/ Faire un dotplot de ces 2 séquences avec dotmatcher : qu'observez-vous ?

2/ Faire un alignement semi-global avec needle : combien y a-t-il de gaps ? A quoi correspond le pourcentage de similarité ? Quels sont les paramètres de calcul du score ? Modifiez-les et regardez en quoi l'alignement change.

3/ Faire un alignement local avec matcher : qu'observez-vous ? Demandez à voir d'autres alignements (number of alternative matches). Puis modifier les paramètres de calcul du score

Comparez et expliquez les différences obtenues entre une méthode d'alignement global (needle) et une méthode d'alignement local (matcher).

Quelles conclusions sur les 2 séquences ?


EXERCICE 3 : séquences nuléiques / séquences protéiques

Vous allez comparer la séquence PL6 humaine à son orthologue chez la souris.

Voici les 2 séquences ADN (des ARNm ici) : Pl6_hum_dna et Pl6_mouse_dna et les 2 séquences protéiques Pl6_hum_prot et Pl6_mouse_prot.

1/ Construisez le dotplot des séquences ADN puis le dotplot des séquences protéiques avec dotmatcher. Sur quel type de séquence la similarité est-elle la plus visible ?

2/ Comparez maintenant les séquences ADN avec l'algorithme d'alignement global stretcher et l'algorithme d'alignement local water en utilisant les pénalités de gap suivantes : ouverture 10, extension 1. Lequel choisiriez-vous ? Pourquoi ?

3/ Refaites les alignements avec les séquences protéiques. Observez-vous des différences ? Pourquoi ?

EXERCICE 4 : comment choisir la méthode d'alignement et les paramètres optimaux

Récupérer les séquences de 2 protéines de la famille des TPP (Thiamine Pyrophosphate dependent enzymes), ILV1_TOBAC et ILVB_ARATH

A. Le dotplot : utiliser dotpath afin d'avoir une idée de la ressemblance entre les 2 séquences

B. Impact des pénalités associées aux gaps faites 2 alignements de ces séquences (dans 2 pages), avec stretcher, mais avec 2 jeux de paramètres pour les gaps :

       ouverture 12, extension 2, matrice EPAM60
       ouverture 2, extension 2, matrice EPAM60

Quelles différences remarquez-vous ?
Quel est celui des deux alignements qui vous paraît le plus pertinent ?
L'alignement obtenu est spécifique aux valeurs de paramètres, en particulier au fait que nous sommes dans le cadre d'une fonction de gap affine.

C. Impact des matrices de Score

Récupérer la protéine PDC1_MAIZE. PDC1 est également de la famille des TPP mais plus éloignée.

1/ Effectuez un alignement global entre ILVB_ARATH et PDC1_MAIZE avec stretcher avec comme les paramètres par défaut (ouverture de gap=12, extension de gap=2, matrice=EBLOSUM62.
Remarquez combien le score de cet alignement et le pourcentage d'identité sont faibles. Pensez-vous que ce soit un bon alignement ?
Pensez-vous que la matrice BLOSUM62 soit adéquate dans ce cadre. Quelle matrice pourrait être meilleure ? Pourquoi ?

2/ Essayez avec les matrices PAM. Construisez les alignements avec PAM30 et PAM350.
Quel est le meilleur alignement ?
Etait-ce prévisible?

Il faut retenir que les matrices de scores affectent les résultats d'un alignement et qu'il est difficile de juger de la qualité d'un alignement de deux séquences. Le choix de la matrice dépend de la divergence qu'ont les deux séquences étudiées, les meilleurs résultats étant obtenus lorsqu'on utilise la matrice la plus sensible par rapport au niveau de divergence réel des séquences.


D. Type d'alignement

Les alignements locaux sont souvent plus utiles que les alignements globaux. Les séquences proches partagent le plus souvent des régions similaires et non leur totalité. Nous allons tenter d'identifier si un fragment inconnu de protéine de champignon frag_new est relatif aux protéines précédentes.

Effectuez un alignement global avec stretcher entre ce peptide et ILV1_TOBAC avec les paramètres par défaut. Que pensez-vous de cet alignement ? Comment expliquez-vous ce résultat ? Faites maintenant un alignement local avec matcher avec les mêmes paramètres que stretcher. Que concluez-vous ? En fait la zone alignée correspond à un domaine protéique connu : comment pouvez-vous le vérifier ?