silico.biotoul.fr
 

TD1 Genome Selection Plantes

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
(Exercice 4 : Comparaison de plusieurs séquences par alignement multiple)
(Exercice 2 : Définition d'amorces PCR)
 
(128 intermediate revisions not shown)
Line 1: Line 1:
==Objectifs==
==Objectifs==
-
Ce TD a pour but de vous familiariser avec la recherche d'informations scientifiques disponibles dans les banques de données biologiques (Database) et des outils permettant de comparer des séquences pour définir leur lien d'homologie
+
Ce TD a pour but de vous familiariser avec la recherche d'informations scientifiques disponibles dans les banques de données biologiques (Database) et des outils permettant d'analyser ces séquences nucléiques et/ou protéiques afin de pouvoir les utiliser dans une approche expérimentale.
 +
 
 +
Globalement les informations sont regroupées dans 2 centres de ressources:
-
Globalement les informations sont regroupées dans 2 centres :
 
* [http://www.ncbi.nlm.nih.gov/ NCBI] National Center for Biotechnology Information (NIH, USA)
* [http://www.ncbi.nlm.nih.gov/ NCBI] National Center for Biotechnology Information (NIH, USA)
* [http://www.ebi.ac.uk/ EBI] European Bioinformatics Institute (EMBL, GB)
* [http://www.ebi.ac.uk/ EBI] European Bioinformatics Institute (EMBL, GB)
 +
 +
Pour l'analyse de séquences biologiques, la suite de logiciel [https://www.bioinformatics.nl/cgi-bin/emboss/ EMBOSS] est disponible
 +
 +
==Contexte Scientifique==
 +
 +
Les chitinases sont des enzymes capable de dégrader la chitine présente notamment dans les parois des microorganismes fongiques.
 +
Au cours du TP, on précisera dans quels organismes ces enzymes sont détectées, leur ressemblance (homologie), leur organisation structurale (domaines protéiques), l'intérêt à les utiliser dans des approches de biotechnologie végétale.
== Exercice 1 : Recherche dans les banques de données par numéro d'accession ou mots clés (EBI & NCBI)  ==
== Exercice 1 : Recherche dans les banques de données par numéro d'accession ou mots clés (EBI & NCBI)  ==
'''1/''' Aller sur le site de [http://www.ebi.ac.uk/ EBI - European Bioinformatics Institute]'''  
'''1/''' Aller sur le site de [http://www.ebi.ac.uk/ EBI - European Bioinformatics Institute]'''  
-
* rechercher Uniprot (DataResources>SeeAllDataResources>Uniprot), qu'est ce que Uniprot ?
+
* rechercher Uniprot (Services (onglet haut de Page)> Sequences Analysis and Web Services> AvailableDataBases(colonne gauche)>Uniprot)
 +
* qu'est ce que Uniprot ?
* combien de séquences sont référencées dans TrEMBL ?
* combien de séquences sont référencées dans TrEMBL ?
* combien de séquences sont référencées dans Uniprot/swissProt ?
* combien de séquences sont référencées dans Uniprot/swissProt ?
-
 
+
'''2/'''Sur le site d' [http://www.uniprot.org/ UniProt] : chercher la séquence dont le numéro d'accession est '''A0A8K1C767'''
-
'''2/'''Sur le site d' [http://www.uniprot.org/ UniProt] : chercher la séquence dont le numéro d'accession est P01308.
+
*de quelle protéine s'agit-il ? chez quel organisme ?
*de quelle protéine s'agit-il ? chez quel organisme ?
Line 20: Line 28:
*y a-t-il des preuves expérimentales de l'existence de cette protéine ?
*y a-t-il des preuves expérimentales de l'existence de cette protéine ?
*est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
*est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
-
*afficher la fiche au format UniprotKb. Particularité du format de la la fiche ? (en haut de la page>Format>text)
 
'''3/'''Aller sur le site du [https://www.ncbi.nlm.nih.gov/ NCBI]: identifiez '''
'''3/'''Aller sur le site du [https://www.ncbi.nlm.nih.gov/ NCBI]: identifiez '''
-
* toutes les séquences de l'oomycète ''Phytophthora'' (parasite de la pomme de terre), combien sont-elles ?   
+
* toutes les séquences des champignons du genre ''Fusarium'', combien sont-elles ?
-
* les séquences protéiques de ''Phytophthora parasitica'' pouvant interagir avec la cellulose
+
* le nombre article scientifique référencés dans PuBMed en lien avec ''Fusarium''  
 +
* les séquences protéiques de ''Fusarium oxysporum'' présentant une activité chitinase
 +
* combien de séquences sont répertoriées dans la souche Fo47 ?
Pour cela sur le site du NCBI sélectionnez les banques "protéines", puis dans la barre de requête il est possible de combiner plusieurs termes à l'aide des opérateurs booléens (AND, OR, NOT)
Pour cela sur le site du NCBI sélectionnez les banques "protéines", puis dans la barre de requête il est possible de combiner plusieurs termes à l'aide des opérateurs booléens (AND, OR, NOT)
puis l'option '''''Advanced''''' (sous la barre de requête) et le bouton '''Preview''', en précisant les champs, Organism, Title... à l'aide de l'outil '''Search builder''' et conjuguer vos requêtes. L'historique de vos requêtes est visible.
puis l'option '''''Advanced''''' (sous la barre de requête) et le bouton '''Preview''', en précisant les champs, Organism, Title... à l'aide de l'outil '''Search builder''' et conjuguer vos requêtes. L'historique de vos requêtes est visible.
-
<u>On s'intéresse maintenant à la séquence dont le numéro d'accession est '''CAA65843'''</u>
+
 
 +
'''4/'''On s'intéresse maintenant à la séquence dont le numéro d'accession est '''EWZ38715'''
Regardez la fiche de la séquence correspondante :
Regardez la fiche de la séquence correspondante :
-
* comment s'organise cette fiche ? (format GenPept # UniprotKb)
 
* quel est le nom de cette protéine ?
* quel est le nom de cette protéine ?
* quel le nombre d'acides aminés constituant cette protéine ?
* quel le nombre d'acides aminés constituant cette protéine ?
-
* dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
+
* cette protéine contient-elle différents domaines fonctionnels ? Lesquels ?
-
* sous quel numéro cette publication est-elle référencée dans PubMed ?
+
* définissez l'architecture de cette protéine
 +
* affichez votre séquence protéique au format FASTA (haute de page>FASTA). Qu'est ce que le format FASTA ?
-
<u>On s'intéresse maintenant aux '''références croisées''', notées "db_xref" sur la fiche</u>
+
== Exercice 2 : Analyse d'une séquence protéique, recherche de domaines fonctionnels ==
-
* à quoi correspondent les différents liens croisées :
+
-
- db_xref="InterPro:IPR000177"
+
Afin d'appréhender plus finement l'organisation structurale et la localisation cellulaire de la protéine de Pythium oligandrum ('''A0A8K1C767'''), vous allez recherchez les domaines 'fonctionnels' prédits sur la séquence ainsi que des motifs pouvant indiquer la localisation subcellulaire de la protéine
-
- db_xref="InterPro:IPR000254"
+
 
-
- db_xref="UniProtKB/TrEMBL:O42830
+
Sur le site de l'EMBL, utiliser le logiciel d'analyse de séquence protéique [https://www.ebi.ac.uk/interpro/'''InterPro'''] pour chercher si la séquence protéique de ''Pythium oligandrum'' contient des domaines fonctionnels connus.
 +
* Notez les positions et le nom des domaines PFAM identifiés sur cette protéine
 +
* Trouvez-vous la même chose avec les domaines  IPR ?
 +
* Cette protéine présente-t-elle des régions pouvant suggérer sa localisation subcellulaire ?
 +
 
 +
''NB: Gardez à l'écran le résultat InterPro pour la suite du TP''
 +
 
 +
* via 'PFAM', préciser l'activité 'Chitinase I / GH19' (cliquez sur numero d'accession PFAM Chitinase I /GH19)
 +
* identifiez les espèces qui présentent des domaines de type GH19.
 +
* combien de protéines à domaine GH19 sont recensées actuellement ?
 +
* la structure 3D de ce domaine protéique est-elle connue ?
-
* quels domaines protéiques sont présents dans la protéine ?
 
-
* définissez l'architecture de cette protéine
 
-
* affichez votre séquence protéique au format FASTA (haute de page>FASTA). Qu'est ce que le format FASTA ?
 
<!--
<!--
 +
>EWZ38715.1 chitinase [Fusarium oxysporum Fo47]
 +
MRVSTLLGLSAYAVAEASCSRNIIYYDQWHTNDLPPKDVTHSVTHVMMSFANSSLFTTEPSGKYEPFQPL
 +
KQVRALFDHDIKVCLAIGGWGDNAGFDAGLKTDRSRERFARNVASTLDRLGYDCVDIDMEYPGGNGADYK
 +
QVVNSKKTYEIQAFPKLLKEIKKFIGSKELSIAVPGLERDMIAYIPSETPLIEKSVDFVNVMTYDLMNRR
 +
DSYTTHHVSVKGAARAIDKYLSLGFPAHKLVLGIPFYAKWFTTKQGYKCTNPIGCPTELLENPKDGSDTG
 +
KSGSMTFEAANFVSAPTNLTTTPDATCGAGTFFKCATGGCCAASGWCGDTAAHCGTGCQSAYGHCDGIDL
 +
SASFHEALDKGKTDKVNGGQWYWDAPNRIFWSWDTPELIAEKINLLAKTRGVKSVMAWALALDSHDWSHL
 +
KAMQQGFDRVNA
-
== ''Mise en application'' ==
+
>A0A8K1C767_g14262.1 GH19 Pythium_DB
 +
MKNAQVLVALACATFAAEQVSAGYVYVGSTGDKAAMTQWCNWNCPGFCPGDMCKQEGGAPAPAPGPAPIVPAVNPAPAPA
 +
PGPAPAPAPAPAPAAGGSGFGKYLDEGKFKQLFPESIPLYTFAGLVDAAKKYPSFANTGNEVNDKRELAAFLAQTSHECD
 +
HYKAAEEYAKDTFPESQYCNAGQVPCAAGHRYHGRGPIQLSWNYNYKAAGDAIGVDLLNKPELVGTDKTVTWQTALWYWM
 +
TPQGGKGVIHDIVANDFAQSTNIINGGLECGGPSKNNELQRIEYYKKICATLGVEPVAKVSCN
-
'''Récupérez la séquence P07987'''
+
PFAM [119-302] Chitinase Class I = IPR 000726 GH19_cat
 +
SP-TM [1-22]
 +
-->
-
* de quelle type de séquence s'agit-il ?
+
== Exercice 3 : Comparaison de 2 séquences protéiques par Dot Plot ==
-
* à quel organisme appartient-elle ?
+
-
* dans quelle banque cette séquence est-elle déposée ?
+
-
* indiquez les positions du domaine CBM1
+
-
* quelle est la localisation subcellulaire de P07987 ?
+
-
* quelle est la fonction de P07987  ?
+
 +
Afin d'observer la ressemblance entre la séquence de chitinase de ''Pythium oligandrum'' ('''A0A8K1C767''') et de ''Fusarium oxysporum'' ('''EWZ38715'''), nous allons les comparer par 'Dot Plot'
 +
 +
* dans la suite de logiciel dédiée a l'analyse de séquence [https://www.bioinformatics.nl/cgi-bin/emboss/ EMBOSS], identifier l'outil 'DOT MATCHER'
 +
* comparer vos séquences en DOT-MATCHER
 +
* que pouvez-conclure ?
 +
 +
<!--
 +
pour faire une ligne blache
-->
-->
 +
 +
== Exercice 4 : Comparaison de 2 séquences protéiques par Alignement par paires ==
 +
 +
Afin d'observer la ressemblance / similitude entre la séquence de chitinase de ''Pythium oligandrum'' ('''A0A8K1C767''') et de ''Fusarium oxysporum'' ('''EWZ38715'''), nous allons maintenant les comparer par 'Alignement de Séquences' en utilisant des logiciels disponibles dans [https://www.bioinformatics.nl/cgi-bin/emboss/ EMBOSS].
 +
 +
 +
Dans un premier temps nous allons comparer les 2 séquences sur toute leur longueur (du 1er au dernier résidu) = '''Méthode d'alignement GLOBAL'''
 +
* avec le logiciel STRETCHER, réalisez l'alignement entre la séquence de ''P. oligandrum'' et de ''F. oxysporum''
 +
* quel résultat pouvez vous anticipez ?
 +
 +
Dans un second temps, identifiez si il existe entre les 2 séquences des régions similaires = '''Méthode d'alignement LOCAL'''
 +
* avec le logiciel MATCHER, comparez vos 2 séquences. Indiquez le chiffre 5 dans le paramètres 'Number of Alternatives Matches'
 +
* que pensez-vous du résultat ?
 +
 +
 +
Faites les mêmes analyses (alignement global & local) entre la séquence de ''Pythium oligandrum'' ('''A0A8K1C767''') et la séquence '''Q8H6Y7'''
 +
* A quel organisme appartient cette séquence ?
 +
* A quelle banque de données correspond ce numéro d'accession ?
 +
* Quel est le numéro d'accession de l'ARNm correspondant ?
 +
* Que pouvez-vous conclure d'après vos résultats d'alignement entre les 2 séquences protéiques ?
 +
 +
<!--
 +
Uniprot  Q8H6Y7
 +
ARNm  AF424684
 +
 +
>tr|Q8H6Y7|Q8H6Y7_PHYIN Acidic chitinase OS=Phytophthora infestans OX=4787 PE=2 SV=1
 +
MKFVGVIASSLLVVPSAVSGDADSSSFARFFDQDRFQEVFPDAVELYNFNGLVDAASKYS
 +
EFANTGNDDNDKRELAAFLAQTAHECDSFKAAEEYARDTYSVWQYCDNATYTCAPGRRYH
 +
GRGPIQLSWNYNYYNAGEALGIDLLNNPDIVATDTTVTWMTALWYWMTPHGGRVIHDIVA
 +
GENGFAQSTDIINGGLECGPDAPNTSNEQQRITYFTKMCEALGVEPLGATSCNA
 +
-->
 +
 +
== ANNEXES ==
 +
 +
>EWZ38715_Fusarium_oxysporum
 +
 +
MRVSTLLGLSAYAVAEASCSRNIIYYDQWHTNDLPPKDVTHSVTHVMMSFANSSLFTTEPSGKYEPFQPL
 +
KQVRALFDHDIKVCLAIGGWGDNAGFDAGLKTDRSRERFARNVASTLDRLGYDCVDIDMEYPGGNGADYK
 +
QVVNSKKTYEIQAFPKLLKEIKKFIGSKELSIAVPGLERDMIAYIPSETPLIEKSVDFVNVMTYDLMNRR
 +
DSYTTHHVSVKGAARAIDKYLSLGFPAHKLVLGIPFYAKWFTTKQGYKCTNPIGCPTELLENPKDGSDTG
 +
KSGSMTFEAANFVSAPTNLTTTPDATCGAGTFFKCATGGCCAASGWCGDTAAHCGTGCQSAYGHCDGIDL
 +
SASFHEALDKGKTDKVNGGQWYWDAPNRIFWSWDTPELIAEKINLLAKTRGVKSVMAWALALDSHDWSHL
 +
KAMQQGFDRVNA
 +
 +
 +
 +
>A0A8K1C767_Pythium_oligandrum
 +
 +
MKNAQVLVALACATFAAEQVSAGYVYVGSTGDKAAMTQWCNWNCPGFCPGDMCKQEGGAPAPAPGPAPIVPAVNPAPAPA
 +
PGPAPAPAPAPAPAAGGSGFGKYLDEGKFKQLFPESIPLYTFAGLVDAAKKYPSFANTGNEVNDKRELAAFLAQTSHECD
 +
HYKAAEEYAKDTFPESQYCNAGQVPCAAGHRYHGRGPIQLSWNYNYKAAGDAIGVDLLNKPELVGTDKTVTWQTALWYWM
 +
TPQGGKGVIHDIVANDFAQSTNIINGGLECGGPSKNNELQRIEYYKKICATLGVEPVAKVSCN
 +
 +
 +
 +
<!--
 +
 +
>tr|A0A833T7N1|A0A833T7N1_PHYIN Chitinase class I OS=Phytophthora infestans OX=4787 GN=GN244_ATG06568 PE=4 SV=1
 +
MKFVGVIASSLLVVPSAVSGDADSSSFARFFDQDRFQEVFPDAVELYNFNGLVDAASKYS
 +
EFANTGNDDNDKRELAAFLAQTAHECDSFKAAEEYARDTYSVWQYCDNTTYTCAPGRRYH
 +
GRGPIQLSWNYNYYNAGEALGIDLLNNPDIVATDTTVTWMTALWYWMTPHGGRVIHDIVA
 +
GENGFAQSTDIINGGLECGPDAPNTSNEQQRITYFTKMCEALGVEPLGATSCNA
 +
== Exercice 2 : Recherche dans les banques via une séquence (protéique ou nucléique): l'outil BLAST ==  
== Exercice 2 : Recherche dans les banques via une séquence (protéique ou nucléique): l'outil BLAST ==  
Line 74: Line 170:
HAILRLDLAGRDLTDHSSSILTERGYSQTTTAEREIVRDMKEKVSYIALDYEQELETSKTAAAVEKSFELPDGQVITIGVERFRCPEVLFQPSMIGMENPGIHETTYNSI
HAILRLDLAGRDLTDHSSSILTERGYSQTTTAEREIVRDMKEKVSYIALDYEQELETSKTAAAVEKSFELPDGQVITIGVERFRCPEVLFQPSMIGMENPGIHETTYNSI
-
* Afin de savoir si cette séquence est répertoriée dans les bases de données faites un BLAST au [https://blast.ncbi.nlm.nih.gov/Blast.cgi NCBI] ou auprès de [https://www.ebi.ac.uk/services l'EBI].
+
* Afin de savoir si cette séquence est répertoriée dans les bases de données faites un BLAST au [https://blast.ncbi.nlm.nih.gov/Blast.cgi NCBI].
* Quel type de 'Blast' choisissez-vous ? Faites un Blast contre la banque de données UniprotKB/SwissProt
* Quel type de 'Blast' choisissez-vous ? Faites un Blast contre la banque de données UniprotKB/SwissProt
* A quoi correspond la E-value ?
* A quoi correspond la E-value ?
Line 101: Line 197:
* Sur quel brin cette séquence inconnue présente-elle une homologie ?
* Sur quel brin cette séquence inconnue présente-elle une homologie ?
* Que représente les signes '--------' rencontrés sur certaines séquences ?
* Que représente les signes '--------' rencontrés sur certaines séquences ?
 +
 +
== Exercice 3 : Recherche d'ORF dans une séquence nucléique ==
 +
 +
Il existe des outils pour déterminer les phases ouvertes de lecture (OpenReadingFrame ORF) dans une séquence nucléique.
 +
Vous disposez [[Media:Clone_BCL2.txt| , en cliquant sur ce lien]], d'une séquence 'BCL2' issue du séquençage d'un fragment nucléique humain. 
 +
Vous allez vérifier que ce fragment est codant en recherchant les cadres ouverts de lecture présents, et en identifiant l'ORF la plus probable.
 +
 +
Utilisez le programme '''ORF Finder''' au [http://www.ncbi.nlm.nih.gov/ NCBI] pour effectuer la recherche de séquence codante (ALLResources>Resources List A-Z>ORFfinder (colonne gauche).
 +
  Paramétrez le logiciel avec : Minimal ORF length (nt): 300  / ORF start codon to use: ATG
 +
* Interprétez le graphique et les résultats obtenus.
 +
* Quelle est la position de l'ORF la plus probable ?
 +
 +
 +
Afin de valider votre hypothèse quant à l'ORF la plus probable, il est nécessaire d'aller identifier dans les banques de données si cette ORF code pour la protéine Bcl2. Pour cela vous allez réaliser un BlastP
 +
* Dans ORF Finder, utilisez l'option Blastp sur la banque ''Uniprot/swissProt''. Que concluez-vous ?
 +
* Quel est le numéro d'accession de la protéine BCL2 dans Uniprot/SwissProt ?
== ''Mise en Application'' ==
== ''Mise en Application'' ==
Line 182: Line 294:
-
<!--
+
 
== Exercice 3 : Recherche dans des banques de données spécialisées, l'exemple des banques de domaines protéiques==  
== Exercice 3 : Recherche dans des banques de données spécialisées, l'exemple des banques de domaines protéiques==  
Line 207: Line 319:
* Comparer les positions des domaines selon les banques. Pourquoi observez vous des variations ?
* Comparer les positions des domaines selon les banques. Pourquoi observez vous des variations ?
* Cette séquence contient-elle un domaine référence dans PFAM ? si oui quel est son numero d'accession ?
* Cette séquence contient-elle un domaine référence dans PFAM ? si oui quel est son numero d'accession ?
-
-->
 
-
 
-
== Exercice 3: Comparaison de 2 séquences par alignement global et local : Cas d'Ecole==
 
-
 
-
Les logiciels utilisés pour la comparaison de séquences deux à deux sont disponibles dans la suite EMBOSS [http://bioinfo.genotoul.fr/ de la Genopole de Toulouse] ou du centre de [http://www.bioinformatics.nl/emboss-explorer/  Bioinformatique des Pays Bas]
 
-
 
-
 
-
Voici 2 séquences, au format FASTA :
 
-
 
-
>prot1
 
-
 
-
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS
 
-
 
-
>prot2
 
-
 
-
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI
 
-
 
-
 
-
* Faites une matrice de point (Dot plot), pour comparer vos 2 séquences et obtenir un aperçu de la similarité entre les 2 séquences.
 
-
Utilisez l'outil '''DOTMATCHER''' disponible sur EMBOSS en gardant les paramètres par défaut, et qui permet de visualiser des diagnonales de 'similarité'
 
-
:Que pouvez-vous conclure ?
 
-
 
-
 
-
* Faites un alignement '''global''' pour comparer de bout à bout (du premier jusqu'au dernier résidu) vos 2 séquences
 
-
Utilisez l'outil d'alignement global ''Stretcher''' disponible sur EMBOSS en gardant les paramètres par défaut
 
-
:Qu'observez vous ?
 
-
:Combien y a-t-il de gaps ? A quoi correspondent-ils ?<br/>
 
-
:A quoi correspond le pourcentage de similarité ? <br/>
 
-
:Quels sont les paramètres de calcul du score ? <br/>
 
-
:Votre alignement est-il significatif ?
 
-
 
+
== Exercice 5 : Comparaison de plusieurs séquences par alignement multiple ==
-
* Faites un alignement '''local''' pour comparer vos 2 séquences et identifier les régions similaires
+
-
Utilisez l'outil d'alignement local '''Matcher''' disponible sur EMBOSS. <br/>
+
-
'''''NB:''' dans 'alternative matches' indiquez 10, de façon a visualiser 10 alignements locaux''
+
-
:Qu'observez-vous ? <br/>
+
-
:Regardez les autres alignements locaux. Sont-il significatifs ? <br/>
+
-
 
+
-
'''''NB''': si vous avez besoin de convertir vos séquences au Format Fasta un petit outil bien utile  :[https://www-bimas.cit.nih.gov/cgi-bin/molbio/sequence_conversion ReadSeq]''
+
-
 
+
-
 
+
-
== Exercice 4 : Comparaison de plusieurs séquences par alignement multiple ==
+
L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'identifier des 'zones' (domaines/motifs) conservés pouvant décrire une famille protéique
L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'identifier des 'zones' (domaines/motifs) conservés pouvant décrire une famille protéique
-
Sur le lien [http://snp.toulouse.inra.fr/~mathe/L3/TP5/sequences.fasta suivant], vous trouverez un ensemble de séquences protéiques de la famille THAP au format FASTA appartenant à l'homme, la souris, le poulet et le poisson zèbre (~30 séquences) et connus pour être impliquées dans des phénomènes d'apoptose.
+
Sur le lien [http://snp.toulouse.inra.fr/~mathe/L3/TP5/sequences.fasta suivant], vous trouverez un ensemble de séquences protéiques de la famille THAP au format FASTA appartenant à l'homme, la souris, le poulet et le poisson zèbre (~30 séquences) et connues pour être impliquées dans des phénomènes d'apoptose.
Line 259: Line 331:
Pour cela utilisez le logiciel '''Clustal Omega''' disponible a [https://www.ebi.ac.uk/ l'EBI] (>DataResources)
Pour cela utilisez le logiciel '''Clustal Omega''' disponible a [https://www.ebi.ac.uk/ l'EBI] (>DataResources)
:Qu'observez-vous ?
:Qu'observez-vous ?
-
 
* Trouvez-vous des 'zones similaires' (=domaines) à l'ensemble de ces séquences.  
* Trouvez-vous des 'zones similaires' (=domaines) à l'ensemble de ces séquences.  
Line 275: Line 346:
     x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences <br>
     x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences <br>
-
*Tester la spécificité de votre signature sur [http://prosite.expasy.org/scanprosite/ '''ScanProsite'''] (choisir l'option 2) contre SwissProt  
+
*Tester la spécificité de votre signature sur [http://prosite.expasy.org/scanprosite/ '''ScanProsite'''] (choisir l'option 2) contre SwissProt
-
:Qu'observez-vous, sachant que 45 séquences protéiques de la famille THAP sont disponibles dans la banque de données SwissProt ?
+
 
 +
 
 +
 
 +
-->

Current revision as of 10:03, 2 December 2022

Contents

Objectifs

Ce TD a pour but de vous familiariser avec la recherche d'informations scientifiques disponibles dans les banques de données biologiques (Database) et des outils permettant d'analyser ces séquences nucléiques et/ou protéiques afin de pouvoir les utiliser dans une approche expérimentale.

Globalement les informations sont regroupées dans 2 centres de ressources:

  • NCBI National Center for Biotechnology Information (NIH, USA)
  • EBI European Bioinformatics Institute (EMBL, GB)

Pour l'analyse de séquences biologiques, la suite de logiciel EMBOSS est disponible

Contexte Scientifique

Les chitinases sont des enzymes capable de dégrader la chitine présente notamment dans les parois des microorganismes fongiques. Au cours du TP, on précisera dans quels organismes ces enzymes sont détectées, leur ressemblance (homologie), leur organisation structurale (domaines protéiques), l'intérêt à les utiliser dans des approches de biotechnologie végétale.

Exercice 1 : Recherche dans les banques de données par numéro d'accession ou mots clés (EBI & NCBI)

1/ Aller sur le site de EBI - European Bioinformatics Institute

  • rechercher Uniprot (Services (onglet haut de Page)> Sequences Analysis and Web Services> AvailableDataBases(colonne gauche)>Uniprot)
  • qu'est ce que Uniprot ?
  • combien de séquences sont référencées dans TrEMBL ?
  • combien de séquences sont référencées dans Uniprot/swissProt ?

2/Sur le site d' UniProt : chercher la séquence dont le numéro d'accession est A0A8K1C767

  • de quelle protéine s'agit-il ? chez quel organisme ?
  • quelle est la taille de cette séquence ?
  • y a-t-il des preuves expérimentales de l'existence de cette protéine ?
  • est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?


3/Aller sur le site du NCBI: identifiez

  • toutes les séquences des champignons du genre Fusarium, combien sont-elles ?
  • le nombre article scientifique référencés dans PuBMed en lien avec Fusarium
  • les séquences protéiques de Fusarium oxysporum présentant une activité chitinase
  • combien de séquences sont répertoriées dans la souche Fo47 ?

Pour cela sur le site du NCBI sélectionnez les banques "protéines", puis dans la barre de requête il est possible de combiner plusieurs termes à l'aide des opérateurs booléens (AND, OR, NOT) puis l'option Advanced (sous la barre de requête) et le bouton Preview, en précisant les champs, Organism, Title... à l'aide de l'outil Search builder et conjuguer vos requêtes. L'historique de vos requêtes est visible.


4/On s'intéresse maintenant à la séquence dont le numéro d'accession est EWZ38715

Regardez la fiche de la séquence correspondante :

  • quel est le nom de cette protéine ?
  • quel le nombre d'acides aminés constituant cette protéine ?
  • cette protéine contient-elle différents domaines fonctionnels ? Lesquels ?
  • définissez l'architecture de cette protéine
  • affichez votre séquence protéique au format FASTA (haute de page>FASTA). Qu'est ce que le format FASTA ?

Exercice 2 : Analyse d'une séquence protéique, recherche de domaines fonctionnels

Afin d'appréhender plus finement l'organisation structurale et la localisation cellulaire de la protéine de Pythium oligandrum (A0A8K1C767), vous allez recherchez les domaines 'fonctionnels' prédits sur la séquence ainsi que des motifs pouvant indiquer la localisation subcellulaire de la protéine

Sur le site de l'EMBL, utiliser le logiciel d'analyse de séquence protéique InterPro pour chercher si la séquence protéique de Pythium oligandrum contient des domaines fonctionnels connus.

  • Notez les positions et le nom des domaines PFAM identifiés sur cette protéine
  • Trouvez-vous la même chose avec les domaines IPR ?
  • Cette protéine présente-t-elle des régions pouvant suggérer sa localisation subcellulaire ?

NB: Gardez à l'écran le résultat InterPro pour la suite du TP

  • via 'PFAM', préciser l'activité 'Chitinase I / GH19' (cliquez sur numero d'accession PFAM Chitinase I /GH19)
  • identifiez les espèces qui présentent des domaines de type GH19.
  • combien de protéines à domaine GH19 sont recensées actuellement ?
  • la structure 3D de ce domaine protéique est-elle connue ?


Exercice 3 : Comparaison de 2 séquences protéiques par Dot Plot

Afin d'observer la ressemblance entre la séquence de chitinase de Pythium oligandrum (A0A8K1C767) et de Fusarium oxysporum (EWZ38715), nous allons les comparer par 'Dot Plot'

  • dans la suite de logiciel dédiée a l'analyse de séquence EMBOSS, identifier l'outil 'DOT MATCHER'
  • comparer vos séquences en DOT-MATCHER
  • que pouvez-conclure ?


Exercice 4 : Comparaison de 2 séquences protéiques par Alignement par paires

Afin d'observer la ressemblance / similitude entre la séquence de chitinase de Pythium oligandrum (A0A8K1C767) et de Fusarium oxysporum (EWZ38715), nous allons maintenant les comparer par 'Alignement de Séquences' en utilisant des logiciels disponibles dans EMBOSS.


Dans un premier temps nous allons comparer les 2 séquences sur toute leur longueur (du 1er au dernier résidu) = Méthode d'alignement GLOBAL

  • avec le logiciel STRETCHER, réalisez l'alignement entre la séquence de P. oligandrum et de F. oxysporum
  • quel résultat pouvez vous anticipez ?

Dans un second temps, identifiez si il existe entre les 2 séquences des régions similaires = Méthode d'alignement LOCAL

  • avec le logiciel MATCHER, comparez vos 2 séquences. Indiquez le chiffre 5 dans le paramètres 'Number of Alternatives Matches'
  • que pensez-vous du résultat ?


Faites les mêmes analyses (alignement global & local) entre la séquence de Pythium oligandrum (A0A8K1C767) et la séquence Q8H6Y7

  • A quel organisme appartient cette séquence ?
  • A quelle banque de données correspond ce numéro d'accession ?
  • Quel est le numéro d'accession de l'ARNm correspondant ?
  • Que pouvez-vous conclure d'après vos résultats d'alignement entre les 2 séquences protéiques ?


ANNEXES

>EWZ38715_Fusarium_oxysporum

MRVSTLLGLSAYAVAEASCSRNIIYYDQWHTNDLPPKDVTHSVTHVMMSFANSSLFTTEPSGKYEPFQPL KQVRALFDHDIKVCLAIGGWGDNAGFDAGLKTDRSRERFARNVASTLDRLGYDCVDIDMEYPGGNGADYK QVVNSKKTYEIQAFPKLLKEIKKFIGSKELSIAVPGLERDMIAYIPSETPLIEKSVDFVNVMTYDLMNRR DSYTTHHVSVKGAARAIDKYLSLGFPAHKLVLGIPFYAKWFTTKQGYKCTNPIGCPTELLENPKDGSDTG KSGSMTFEAANFVSAPTNLTTTPDATCGAGTFFKCATGGCCAASGWCGDTAAHCGTGCQSAYGHCDGIDL SASFHEALDKGKTDKVNGGQWYWDAPNRIFWSWDTPELIAEKINLLAKTRGVKSVMAWALALDSHDWSHL KAMQQGFDRVNA


>A0A8K1C767_Pythium_oligandrum

MKNAQVLVALACATFAAEQVSAGYVYVGSTGDKAAMTQWCNWNCPGFCPGDMCKQEGGAPAPAPGPAPIVPAVNPAPAPA PGPAPAPAPAPAPAAGGSGFGKYLDEGKFKQLFPESIPLYTFAGLVDAAKKYPSFANTGNEVNDKRELAAFLAQTSHECD HYKAAEEYAKDTFPESQYCNAGQVPCAAGHRYHGRGPIQLSWNYNYKAAGDAIGVDLLNKPELVGTDKTVTWQTALWYWM TPQGGKGVIHDIVANDFAQSTNIINGGLECGGPSKNNELQRIEYYKKICATLGVEPVAKVSCN