silico.biotoul.fr
 

TD2 Bioanalyse

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(OBJECTIFS)
(EXERCICE 3 : séquences nucléiques / séquences protéiques (alignement global))
 
(15 intermediate revisions not shown)
Line 7: Line 7:
---------------------------------------------------------
---------------------------------------------------------
-
Pour tous les exercices, nous utiliserons la suite "EMBOSS". Cette suite logicielle est disponible sur plusieurs serveurs. Nous utiliserons la version disponible a la Génopole de Toulouse [http://emboss.toulouse.inra.fr/ ] ou au Pays Bas au Pays Bas [http://www.bioinformatics.nl/emboss-explorer/ ])
+
Pour tous les exercices, nous utiliserons la suite "EMBOSS". Cette suite logicielle est disponible sur plusieurs serveurs. Nous utiliserons la version disponible a la [http://emboss.toulouse.inra.fr/ Génopole de Toulouse] ou au [http://www.bioinformatics.nl/emboss-explorer/ Pays Bas]
-
 
+
<!--
<!--
[http://bioinfo.nhri.org.tw/gui/ version] '''  
[http://bioinfo.nhri.org.tw/gui/ version] '''  
-
 
-
(Autres serveurs possibles :  Génopole de Toulouse [http://emboss.toulouse.inra.fr/ ici] ou au Pays Bas [http://www.bioinformatics.nl/emboss-explorer/ là])
 
-->
-->
Line 27: Line 24:
'''1/''' Essayer le logiciel '''dotpath''' avec la taille de fenêtre par défaut et en validant l'option 'Display the overlapping matches'. Essayer avec d'autres tailles de fenêtre (''word size'').
'''1/''' Essayer le logiciel '''dotpath''' avec la taille de fenêtre par défaut et en validant l'option 'Display the overlapping matches'. Essayer avec d'autres tailles de fenêtre (''word size'').
-
'''2/''' En déselectionnant l'option 'Display the overlapping matches', vous demandez au logiciel de ne conserver que les fenêtres non chevauchantes. Observez le résultat avec 4 comme taille de fenêtre.
+
'''2/''' En dé-selectionnant l'option 'Display the overlapping matches', vous demandez au logiciel de ne conserver que les zones conservées non chevauchantes. Observez le résultat avec 4 comme taille de fenêtre.
'''3/''' Essayer le logiciel '''dotmatcher''' avec les paramètres par défaut. Faites varier le paramètre de seuil (''threshold'') jusqu'à retrouver le résulat obtenu avec dotpath. Que constatez-vous ?
'''3/''' Essayer le logiciel '''dotmatcher''' avec les paramètres par défaut. Faites varier le paramètre de seuil (''threshold'') jusqu'à retrouver le résulat obtenu avec dotpath. Que constatez-vous ?
En fait la première séquence correspond à celle du gène de la rhodopsine chez ''Xenopus laevis'' et la seconde à celle de son ARNm. Combien le gène compte-t-il d'exons ?
En fait la première séquence correspond à celle du gène de la rhodopsine chez ''Xenopus laevis'' et la seconde à celle de son ARNm. Combien le gène compte-t-il d'exons ?
 +
<!-- Version Distanciel 2020-2021
 +
'''4/''' Via une analyse BlastN au [http://www.ncbi.nlm.nih.gov/ NCBI], avec la séquence du gène de rhodospine de ''Xenopus leavis'', confirmez le nombre d'exons (BlastN | banque nr | Organism: Xenopus laevis). Gardez votre fenêtre de résultats ouverte
-
'''4/''' Via une analyse BlastN au [http://www.ncbi.nlm.nih.gov/ NCBI], avec la séquence du gène de rhodospine de Xenopus leavis, confirmez le nombre d'exons (BlastN | banque nr | Organism: Xenopus laevis). Gardez votre fenêtre de résultats ouverte
+
'''5/''' -->
-
'''5/''' Comparer ce découpage en exons avec l'annotation de la séquence en la recherchant sur le site du [http://www.ncbi.nlm.nih.gov/ NCBI]
+
'''4/''' Réalisez maintenant un alignement semi-global de ces 2 séquences avec '''needle''' (paramètres par défaut) : proposez un découpage en exons/introns de la séquence Xlev_Rhodop1.
 +
Comparer ce découpage en exons avec l'annotation de la séquence en la recherchant sur le site du [http://www.ncbi.nlm.nih.gov/ NCBI]
-
=EXERCICE 2 : un cas d'école pour comparer alignement local et global=
+
=EXERCICE 2 : un cas d'école pour comparer alignement local et semi-global=
Voici 2 séquences, au format FASTA :
Voici 2 séquences, au format FASTA :
Line 67: Line 67:
Comparez et expliquez les différences obtenues entre une méthode d'alignement semi-global (needle) et une méthode d'alignement local (matcher).
Comparez et expliquez les différences obtenues entre une méthode d'alignement semi-global (needle) et une méthode d'alignement local (matcher).
-
=EXERCICE 3 : séquences nucléiques / séquences protéiques=
+
=EXERCICE 3 : séquences nucléiques / séquences protéiques ; alignement global / local=
Vous allez comparer la séquence PL6 humaine à son orthologue chez la souris.
Vous allez comparer la séquence PL6 humaine à son orthologue chez la souris.
Line 75: Line 75:
'''1/''' Construisez le dotplot des séquences ADN puis le dotplot des séquences protéiques avec '''dotmatcher'''. Sur quel type de séquence la similarité est-elle la plus visible ?
'''1/''' Construisez le dotplot des séquences ADN puis le dotplot des séquences protéiques avec '''dotmatcher'''. Sur quel type de séquence la similarité est-elle la plus visible ?
-
'''2/''' Comparez maintenant les séquences ADN avec l'algorithme d'alignement global '''stretcher''' et l'algorithme d'alignement local '''water''' en utilisant les pénalités de gap suivantes :  ouverture 10, extension 1. Lequel choisiriez-vous ? Pourquoi ?
+
'''2/''' Comparez maintenant les séquences ADN avec l'algorithme d'alignement global '''stretcher''' et l'algorithme d'alignement local '''matcher''' en utilisant les pénalités de gap suivantes :  ouverture 10, extension 1. Lequel choisiriez-vous ? Pourquoi ?
   
   
'''3/''' Refaites les alignements avec les séquences protéiques. Observez-vous des différences ? Pourquoi ?
'''3/''' Refaites les alignements avec les séquences protéiques. Observez-vous des différences ? Pourquoi ?
Line 123: Line 123:
=EXERCICE 5 : des exemples d'utilisation et d'interprétation des Dotplots=
=EXERCICE 5 : des exemples d'utilisation et d'interprétation des Dotplots=
-
<!--
+
<!--version distanciel exo 1 supprimé-->
'''1/''' Vous allez maintenant comparer deux autres séquences: ce sont deux facteurs de transcription krox 24 et sp1, contenus dans les fichiers [[Media:Krox24.seq|Krox24]] et [[Media:sp1.seq|sp1]].
'''1/''' Vous allez maintenant comparer deux autres séquences: ce sont deux facteurs de transcription krox 24 et sp1, contenus dans les fichiers [[Media:Krox24.seq|Krox24]] et [[Media:sp1.seq|sp1]].
*Construisez un dotplot avec '''dotmatcher''' de ces deux séquences. Vous devez observer une similitude locale.
*Construisez un dotplot avec '''dotmatcher''' de ces deux séquences. Vous devez observer une similitude locale.
Line 129: Line 129:
Est-ce que vous retrouvez le résultat du dotplot ?
Est-ce que vous retrouvez le résultat du dotplot ?
*Consultez les entrées SwissProt (vous connaissez leur numéro d'accession !) pour déterminer à quoi correspond cette similitude locale. Pour cela, on pourra se rendre sur le serveur du site [http://www.uniprot.org/ UniProtKB]. Est-ce que vos observations sont cohérentes avec les annotations de SwissProt ? Comment pouvez-vous le vérifier ?
*Consultez les entrées SwissProt (vous connaissez leur numéro d'accession !) pour déterminer à quoi correspond cette similitude locale. Pour cela, on pourra se rendre sur le serveur du site [http://www.uniprot.org/ UniProtKB]. Est-ce que vos observations sont cohérentes avec les annotations de SwissProt ? Comment pouvez-vous le vérifier ?
-
-->
 
-
Le dotplot peut également être utilisé pour étudier les régularités structurelles d'une séquence. Vous allez tester cette approche sur les deux exemples suivants :
+
 
 +
'''2/''' Le dotplot peut également être utilisé pour étudier les régularités structurelles d'une séquence. Vous allez tester cette approche sur les deux exemples suivants :
*Localisation de répétitions : analysez avec '''dotpath''' la séquence de rétrotransposon de tabac contenue dans le fichier [[Media:Tnt1.seq|Transposon Tnt1]] (sélectionnez 'Display the overlapping matches'). En jouant sur le paramètre de taille de fénêtre, identifiez le nombre de répétitions significatives ?
*Localisation de répétitions : analysez avec '''dotpath''' la séquence de rétrotransposon de tabac contenue dans le fichier [[Media:Tnt1.seq|Transposon Tnt1]] (sélectionnez 'Display the overlapping matches'). En jouant sur le paramètre de taille de fénêtre, identifiez le nombre de répétitions significatives ?
*Faible complexité : de la même façon analysez la séquence contenue dans [[Media:falciparum.seq|Plasmodium falciparum]]. Qu'observez-vous? A quoi cela correspond dans la séquence ?
*Faible complexité : de la même façon analysez la séquence contenue dans [[Media:falciparum.seq|Plasmodium falciparum]]. Qu'observez-vous? A quoi cela correspond dans la séquence ?

Current revision as of 14:41, 7 October 2021


Contents

OBJECTIFS

   Savoir faire et interpréter un dotplot pour comparer rapidement 2 séquences
   Comprendre les différences entre les méthodes d'alignement : local et global, semi-global
   Confronter les résultats d'alignement aux annotations

Pour tous les exercices, nous utiliserons la suite "EMBOSS". Cette suite logicielle est disponible sur plusieurs serveurs. Nous utiliserons la version disponible a la Génopole de Toulouse ou au Pays Bas


EXERCICE 1 : comparaison de 2 séquences d'ADN

Nous allons utiliser deux logiciels pour effectuer les dotplot.

  • dotpath permet de dessiner un dotplot avec une taille de mot fixée.
  • dotmatcher permet de filtrer les fenêtres avec un seuil.

Récupérez les deux séquences Xlev_Rhodop1 et Xlev_Rhodop2.seq

1/ Essayer le logiciel dotpath avec la taille de fenêtre par défaut et en validant l'option 'Display the overlapping matches'. Essayer avec d'autres tailles de fenêtre (word size).

2/ En dé-selectionnant l'option 'Display the overlapping matches', vous demandez au logiciel de ne conserver que les zones conservées non chevauchantes. Observez le résultat avec 4 comme taille de fenêtre.

3/ Essayer le logiciel dotmatcher avec les paramètres par défaut. Faites varier le paramètre de seuil (threshold) jusqu'à retrouver le résulat obtenu avec dotpath. Que constatez-vous ?

En fait la première séquence correspond à celle du gène de la rhodopsine chez Xenopus laevis et la seconde à celle de son ARNm. Combien le gène compte-t-il d'exons ?

4/ Réalisez maintenant un alignement semi-global de ces 2 séquences avec needle (paramètres par défaut) : proposez un découpage en exons/introns de la séquence Xlev_Rhodop1. Comparer ce découpage en exons avec l'annotation de la séquence en la recherchant sur le site du NCBI

EXERCICE 2 : un cas d'école pour comparer alignement local et semi-global

Voici 2 séquences, au format FASTA :

>prot1

MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS

>prot2

MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI


1/ Faire un dotplot de ces 2 séquences avec dotmatcher : qu'observez-vous ? vous pouvez changer les paramètres

2/ Faire un alignement Semi-Global avec Needle : combien y a-t-il d'événements d'insertion délétion ? A quoi correspond le pourcentage de similarité ? Quels sont les paramètres de calcul du score ? Modifiez-les et regardez en quoi l'alignement change.

3/ Faire un alignement local avec matcher : qu'observez-vous ? Demandez à voir d'autres alignements (number of alternative matches). Puis modifier les paramètres de calcul du score

Comparez et expliquez les différences obtenues entre une méthode d'alignement semi-global (needle) et une méthode d'alignement local (matcher).

EXERCICE 3 : séquences nucléiques / séquences protéiques ; alignement global / local

Vous allez comparer la séquence PL6 humaine à son orthologue chez la souris.

Voici les 2 séquences ADN (des ARNm ici) : Pl6_hum_dna et Pl6_mouse_dna et les 2 séquences protéiques Pl6_hum_prot et Pl6_mouse_prot.

1/ Construisez le dotplot des séquences ADN puis le dotplot des séquences protéiques avec dotmatcher. Sur quel type de séquence la similarité est-elle la plus visible ?

2/ Comparez maintenant les séquences ADN avec l'algorithme d'alignement global stretcher et l'algorithme d'alignement local matcher en utilisant les pénalités de gap suivantes : ouverture 10, extension 1. Lequel choisiriez-vous ? Pourquoi ?

3/ Refaites les alignements avec les séquences protéiques. Observez-vous des différences ? Pourquoi ?

EXERCICE 4 : comment choisir la méthode d'alignement et les paramètres optimaux

Récupérer les séquences de 2 protéines de la famille des TPP (Thiamine Pyrophosphate dependent enzymes), ILV1_TOBAC et ILVB_ARATH

A. Le dotplot : utiliser dotpath afin d'avoir une idée de la ressemblance entre les 2 séquences


B. Impact des pénalités associées aux gaps :

faites 2 alignements de ces séquences (dans 2 pages), avec stretcher, mais avec 2 jeux de paramètres pour les gaps :

       ouverture 12, extension 2, matrice EPAM60
       ouverture 2, extension 2, matrice EPAM60

Quelles différences remarquez-vous ?
Quel est celui des deux alignements qui vous paraît le plus pertinent ?

L'alignement obtenu est spécifique aux valeurs de paramètres, en particulier au fait que nous sommes dans le cadre d'une fonction de gap affine.

C. Impact des matrices de Score

Récupérer la protéine PDC1_MAIZE. PDC1 est également de la famille des TPP mais plus éloignée.

1/ Effectuez un alignement global entre ILVB_ARATH et PDC1_MAIZE avec stretcher avec comme les paramètres par défaut (ouverture de gap=12, extension de gap=2, matrice=EBLOSUM62)
Remarquez combien le score de cet alignement et le pourcentage d'identité sont faibles. Pensez-vous que ce soit un bon alignement ?
Pensez-vous que la matrice BLOSUM62 soit adéquate dans ce cadre. Quelle matrice pourrait être meilleure ? Pourquoi ?

2/ Essayez avec les matrices PAM. Construisez les alignements avec EPAM30 et EPAM350.
Quel est le meilleur alignement ?
Etait-ce prévisible?

Il faut retenir que les matrices de scores affectent les résultats d'un alignement et qu'il est difficile de juger de la qualité d'un alignement de deux séquences. Le choix de la matrice dépend de la divergence qu'ont les deux séquences étudiées, les meilleurs résultats étant obtenus lorsqu'on utilise la matrice la plus sensible par rapport au niveau de divergence réel des séquences.


D. Type d'alignement

Les alignements locaux sont souvent plus utiles que les alignements globaux. Les séquences proches partagent le plus souvent des régions similaires et non leur totalité. Nous allons tenter d'identifier si un fragment inconnu de protéine de champignon frag_new est relatif aux protéines précédentes.

1/ Effectuez un alignement global avec stretcher entre ce peptide et ILV1_TOBAC avec les paramètres par défaut. Que pensez-vous de cet alignement ? Comment expliquez-vous ce résultat ?
2/ Faites maintenant un alignement local avec matcher avec les mêmes paramètres que stretcher. Que concluez-vous ?
3/ Faites maintenant un alignement semi-global avec needle, toujours avec les mêmes paramètres.
4/ En fait la zone alignée correspond à un domaine protéique connu : comment pouvez-vous le vérifier ?

EXERCICE 5 : des exemples d'utilisation et d'interprétation des Dotplots

1/ Vous allez maintenant comparer deux autres séquences: ce sont deux facteurs de transcription krox 24 et sp1, contenus dans les fichiers Krox24 et sp1.

  • Construisez un dotplot avec dotmatcher de ces deux séquences. Vous devez observer une similitude locale.
  • Comparez ensuite les deux séquences avec un alignement local en utilisant matcher (paramètres par défaut Gap penalty 14 et Gap length penalty 4).

Est-ce que vous retrouvez le résultat du dotplot ?

  • Consultez les entrées SwissProt (vous connaissez leur numéro d'accession !) pour déterminer à quoi correspond cette similitude locale. Pour cela, on pourra se rendre sur le serveur du site UniProtKB. Est-ce que vos observations sont cohérentes avec les annotations de SwissProt ? Comment pouvez-vous le vérifier ?


2/ Le dotplot peut également être utilisé pour étudier les régularités structurelles d'une séquence. Vous allez tester cette approche sur les deux exemples suivants :

  • Localisation de répétitions : analysez avec dotpath la séquence de rétrotransposon de tabac contenue dans le fichier Transposon Tnt1 (sélectionnez 'Display the overlapping matches'). En jouant sur le paramètre de taille de fénêtre, identifiez le nombre de répétitions significatives ?
  • Faible complexité : de la même façon analysez la séquence contenue dans Plasmodium falciparum. Qu'observez-vous? A quoi cela correspond dans la séquence ?