From silico.biotoul.fr

1 OBJECTIFS
2 EXERCICE 1 : comparaison de 2 séquences d'ADN
3 EXERCICE 2 : un cas d'école pour comparer alignement local et semi-global
4 EXERCICE 3 : séquences nucléiques / séquences protéiques ; alignement global / local
5 EXERCICE 4 : comment choisir la méthode d'alignement et les paramètres optimaux
6 EXERCICE 5 : des exemples d'utilisation et d'interprétation des Dotplots

OBJECTIFS

   Savoir faire et interpréter un dotplot pour comparer rapidement 2 séquences
   Comprendre les différences entre les méthodes d'alignement : local et global, semi-global
   Confronter les résultats d'alignement aux annotations

Pour tous les exercices, nous utiliserons la suite "EMBOSS". Cette suite logicielle est disponible sur plusieurs serveurs. Nous utiliserons la version disponible a la Génopole de Toulouse ou au Pays Bas

EXERCICE 1 : comparaison de 2 séquences d'ADN

Nous allons utiliser deux logiciels pour effectuer les dotplot.

dotpath permet de dessiner un dotplot avec une taille de mot fixée.
dotmatcher permet de filtrer les fenêtres avec un seuil.

Récupérez les deux séquences Xlev_Rhodop1 et Xlev_Rhodop2.seq

1/ Essayer le logiciel dotpath avec la taille de fenêtre par défaut et en validant l'option 'Display the overlapping matches'. Essayer avec d'autres tailles de fenêtre (word size).

2/ En dé-selectionnant l'option 'Display the overlapping matches', vous demandez au logiciel de ne conserver que les zones conservées non chevauchantes. Observez le résultat avec 4 comme taille de fenêtre.

3/ Essayer le logiciel dotmatcher avec les paramètres par défaut. Faites varier le paramètre de seuil (threshold) jusqu'à retrouver le résulat obtenu avec dotpath. Que constatez-vous ?

En fait la première séquence correspond à celle du gène de la rhodopsine chez Xenopus laevis et la seconde à celle de son ARNm. Combien le gène compte-t-il d'exons ?

4/ Réalisez maintenant un alignement semi-global de ces 2 séquences avec needle (paramètres par défaut) : proposez un découpage en exons/introns de la séquence Xlev_Rhodop1. Comparer ce découpage en exons avec l'annotation de la séquence en la recherchant sur le site du NCBI

EXERCICE 2 : un cas d'école pour comparer alignement local et semi-global

Voici 2 séquences, au format FASTA :

>prot1

MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS

>prot2

MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI

1/ Faire un dotplot de ces 2 séquences avec dotmatcher : qu'observez-vous ? vous pouvez changer les paramètres

2/ Faire un alignement Semi-Global avec Needle : combien y a-t-il d'événements d'insertion délétion ? A quoi correspond le pourcentage de similarité ? Quels sont les paramètres de calcul du score ? Modifiez-les et regardez en quoi l'alignement change.

3/ Faire un alignement local avec matcher : qu'observez-vous ? Demandez à voir d'autres alignements (number of alternative matches). Puis modifier les paramètres de calcul du score

Comparez et expliquez les différences obtenues entre une méthode d'alignement semi-global (needle) et une méthode d'alignement local (matcher).

EXERCICE 3 : séquences nucléiques / séquences protéiques ; alignement global / local

Vous allez comparer la séquence PL6 humaine à son orthologue chez la souris.

Voici les 2 séquences ADN (des ARNm ici) : Pl6_hum_dna et Pl6_mouse_dna et les 2 séquences protéiques Pl6_hum_prot et Pl6_mouse_prot.

1/ Construisez le dotplot des séquences ADN puis le dotplot des séquences protéiques avec dotmatcher. Sur quel type de séquence la similarité est-elle la plus visible ?

2/ Comparez maintenant les séquences ADN avec l'algorithme d'alignement global stretcher et l'algorithme d'alignement local matcher en utilisant les pénalités de gap suivantes : ouverture 10, extension 1. Lequel choisiriez-vous ? Pourquoi ?

3/ Refaites les alignements avec les séquences protéiques. Observez-vous des différences ? Pourquoi ?

EXERCICE 4 : comment choisir la méthode d'alignement et les paramètres optimaux

Récupérer les séquences de 2 protéines de la famille des TPP (Thiamine Pyrophosphate dependent enzymes), ILV1_TOBAC et ILVB_ARATH

A. Le dotplot : utiliser dotpath afin d'avoir une idée de la ressemblance entre les 2 séquences

B. Impact des pénalités associées aux gaps :

faites 2 alignements de ces séquences (dans 2 pages), avec stretcher, mais avec 2 jeux de paramètres pour les gaps :

       ouverture 12, extension 2, matrice EPAM60
       ouverture 2, extension 2, matrice EPAM60

Quelles différences remarquez-vous ?
Quel est celui des deux alignements qui vous paraît le plus pertinent ?

L'alignement obtenu est spécifique aux valeurs de paramètres, en particulier au fait que nous sommes dans le cadre d'une fonction de gap affine.

C. Impact des matrices de Score

Récupérer la protéine PDC1_MAIZE. PDC1 est également de la famille des TPP mais plus éloignée.

1/ Effectuez un alignement global entre ILVB_ARATH et PDC1_MAIZE avec stretcher avec comme les paramètres par défaut (ouverture de gap=12, extension de gap=2, matrice=EBLOSUM62)
Remarquez combien le score de cet alignement et le pourcentage d'identité sont faibles. Pensez-vous que ce soit un bon alignement ?
Pensez-vous que la matrice BLOSUM62 soit adéquate dans ce cadre. Quelle matrice pourrait être meilleure ? Pourquoi ?

2/ Essayez avec les matrices PAM. Construisez les alignements avec EPAM30 et EPAM350.
Quel est le meilleur alignement ?
Etait-ce prévisible?

Il faut retenir que les matrices de scores affectent les résultats d'un alignement et qu'il est difficile de juger de la qualité d'un alignement de deux séquences. Le choix de la matrice dépend de la divergence qu'ont les deux séquences étudiées, les meilleurs résultats étant obtenus lorsqu'on utilise la matrice la plus sensible par rapport au niveau de divergence réel des séquences.

D. Type d'alignement

Les alignements locaux sont souvent plus utiles que les alignements globaux. Les séquences proches partagent le plus souvent des régions similaires et non leur totalité. Nous allons tenter d'identifier si un fragment inconnu de protéine de champignon frag_new est relatif aux protéines précédentes.

1/ Effectuez un alignement global avec stretcher entre ce peptide et ILV1_TOBAC avec les paramètres par défaut. Que pensez-vous de cet alignement ? Comment expliquez-vous ce résultat ?
2/ Faites maintenant un alignement local avec matcher avec les mêmes paramètres que stretcher. Que concluez-vous ?
3/ Faites maintenant un alignement semi-global avec needle, toujours avec les mêmes paramètres.
4/ En fait la zone alignée correspond à un domaine protéique connu : comment pouvez-vous le vérifier ?

EXERCICE 5 : des exemples d'utilisation et d'interprétation des Dotplots

1/ Vous allez maintenant comparer deux autres séquences: ce sont deux facteurs de transcription humain: ERG1/krox 24 et sp1, contenus dans les fichiers Krox24 et sp1.

Construisez un dotplot avec dotmatcher de ces deux séquences. Vous devez observer une similitude locale.
Comparez ensuite les deux séquences avec un alignement local en utilisant matcher (paramètres par défaut Gap penalty 14 et Gap length penalty 4).

Est-ce que vous retrouvez le résultat du dotplot ?

Consultez les entrées SwissProt (vous connaissez leur numéro d'accession !) pour déterminer à quoi correspond cette similitude locale. Pour cela, on pourra se rendre sur le serveur du site UniProtKB. Est-ce que vos observations sont cohérentes avec les annotations de SwissProt ? Comment pouvez-vous le vérifier ?

2/ Le dotplot peut également être utilisé pour étudier les régularités structurelles d'une séquence. Vous allez tester cette approche sur les deux exemples suivants :

Localisation de répétitions : analysez avec dotpath la séquence de rétrotransposon de tabac contenue dans le fichier Transposon Tnt1 (sélectionnez 'Display the overlapping matches'). En jouant sur le paramètre de taille de fénêtre, identifiez le nombre de répétitions significatives ?
Faible complexité : de la même façon analysez la séquence contenue dans Plasmodium falciparum. Qu'observez-vous? A quoi cela correspond dans la séquence ?

TD2 Bioanalyse