silico.biotoul.fr
 

L2-L3 Bioinfo - TP Banques de données et analyse de séquences

From silico.biotoul.fr

Revision as of 16:40, 20 February 2017 by Gaulin (Talk | contribs)
Jump to: navigation, search

Contents

Introduction

Les TPs précédents ont permis de mettre en évidence l'implication de la séquence ATG5G46330 d'Arabidopsis thaliana dans les phénomènes analysés. L'idée est maintenant d'obtenir le maximum d'informations sur cette séquence (fonction, localisation, existence d'homologue..) afin d'établir une hypothèse quant au rôle ATG5G46330 d'Arabidopsis thaliana.

Exercice 1: Recherche d'informations dans les bases de données

Les séquences biologiques (ADN, ARN, Protéines..) sont déposées et stockées dans différentes bases de données qu'il est possible d'interroger soit en utilisant des mots clés, soit des numéros d'accession ou encore en utilsant la séquence afin de recueillir des informations. Il existe différents types de banques dont :

  • des banques 'généralistes ou de connaissances' : regroupant différents types d'informations (ADN, ARN, protéines, SNP..)
  • des banques 'spécialisées' : par exemple des banques dédiées à un type de séquence (ARN ou protéines) ou un type d'organisme (Arabidopsis, Drosophile..)

1/ Sur le site du NCBI

  • Qu'est ce que le NCBI ?
  • Identifiez si la séquence portant le numéro d'accession AT5G46330 est référencée dans les banques hébergées au NCBI
  • Existe-t-il des publications scientifiques relatives à cette séquence ? Dans quelle base de données sont-elles stockées ?


2/ Intéressez-vous dans la banque 'Gene' du NCBI à votre séquence AT5G46330

  • Quel type de séquences héberge la banque 'Gene' ?
  • Quel est le nom de AT5G46330 ?
  • Sur quel chromosome d'arabette ce locus est-il présent ?
  • Cette séquence est-elle codante ?
  • Combien de transcrit ?
  • Des SNPs sont-ils référencés pour ce locus ? Si oui, quel type de SNP sont détectés ?
  • Cette séquence est-elle référencée dans une banque 'specialisée' ?


3/ Sur le portail dédié à Arabidopsis

  • Dans quels tissus d'Arabidospis AT5G46330 s'exprime-t-il préferentiellement ?
  • Si l'on traite Arabidopsis avec un composé issu du microorganisme (elicitor), le profil d'expression est-il comparable à celui obtenu après traitement avec le microorganisme 'entier' (bactérie Pseudomonas) ?
  • Est-il possible de commander des mutants d'Arabidopsis affecté pour AT5G46330 ? Si oui, comment ces mutants ont-ils été obtenus ?
  • Quel est le numéro d'accession dans la banque UniprotKb de la protéine correspondante ?
  • Récupérez et enregistrez la séquence en acides aminés de la protéine correspondante (Fasta)

Exercice 2: Analyse d'une séquence protéique

L'idée ici est de définir la fonction, la localisation subcellulaire et les processus physiologiques dans lesquels pourraient intervenir la protéine au sein d'Arabidopsis thaliana et de confronter notre analyse aux annotations présentes dans les banques de données.

1/ Recherche de domaines protéiques

  • utilisez InterProScan à l'EBI (Services => Proteins => InterProScan) pour chercher des domaines connus sur cette séquence
  • notez la position des domaines identifiés dans la banque de domaines PFAM
  • quel pourrait-être la fonction de cette séquence d'Arabidopsis ?

2/ Sur le site d'Expasy

  • le poids moléculaire et le pI de la protéine avec Compute pI/MW
  • définissez si la protéine présente

- un signal de localisation nucléaire (NLS) avec SignalP
- un signal de secretion (peptide signal) avec NLStradamus

  • regardez la topologie prédité pour cette protéine, et notez les positions, avec Phobius
  • conclure quant à la localisation subcellulaire de cette protéine d'Arabidopsis

Exercice 3: Confrontation d'annotation

Nous allons vérifier votre annotation fonctionnelle de la protéine avec ce qui est connu dans les banques de données

1/ Sur le site de l'EBI hébergeant la banque de données 'UniprotKb/SwissProt'

  • Récupérez la fiche descriptive correspondant à la protéine d'Arabidopsis
  • Quelle est la localisation subcellulaire et la topologie de la protéine ?
  • Des domaines protéiques sont-ils indiqués ?
  • Quelle est la fonction de cette protéine (Regardez les 'GO')
  • Les données de la fiche Uniprot sont-elles en accord avec votre annotation ?

2/ Sur le portail dédié à Arabidopsis

  • Retrouvez-vous les annotations liées à cette protéine ?

Exercice 4: Titre ?? Blast analyse

En parallèle à l'étude sur Arabidopsis, un autre laboratoire de recherche à isoler un locus situé sur le chromosome 4 du 'riz' (Oryza sativa) pouvant jouer un rôle majeur dans les interactions riz-microrganismes. Ce locus coderait pour quatre protéines dont celle présentée ci-dessous

>OsProt
MERNKFASKMSQHYTKTICIAVVLVAVLFSLSSAAAAGSGAAVSVQLEALLEFKNGVADD
PLGVLAGWRVGKSGDGAVRGGALPRHCNWTGVACDGAGQVTSIQLPESKLRGALSPFLGN
ISTLQVIDLTSNAFAGGIPPQLGRLGELEQLVVSSNYFAGGIPSSLCNCSAMWALALNVN
NLTGAIPSCIGDLSNLEIFEAYLNNLDGELPPSMAKLKGIMVVDLSCNQLSGSIPPEIGD
LSNLQILQLYENRFSGHIPRELGRCKNLTLLNIFSNGFTGEIPGELGELTNLEVMRLYKN
ALTSEIPRSLRRCVSLLNLDLSMNQLAGPIPPELGELPSLQRLSLHANRLAGTVPASLTN
LVNLTILELSENHLSGPLPASIGSLRNLRRLIVQNNSLSGQIPASISNCTQLANASMSFN
LFSGPLPAGLGRLQSLMFLSLGQNSLAGDIPDDLFDCGQLQKLDLSENSFTGGLSRLVGQ
LGNLTVLQLQGNALSGEIPEEIGNMTKLISLKLGRNRFAGHVPASISNMSSLQLLDLGHN
RLDGVFPAEVFELRQLTILGAGSNRFAGPIPDAVANLRSLSFLDLSSNMLNGTVPAALGR
LDQLLTLDLSHNRLAGAIPGAVIASMSNVQMYLNLSNNAFTGAIPAEIGGLVMVQTIDLS
NNQLSGGVPATLAGCKNLYSLDLSGNSLTGELPANLFPQLDLLTTLNISGNDLDGEIPAD
IAALKHIQTLDVSRNAFAGAIPPALANLTALRSLNLSSNTFEGPVPDGGVFRNLTMSSLQ
GNAGLCGGKLLAPCHGHAAGKKRVFSRTGLVILVVLIALSTLLLLMVATILLVSYRRYRR
KRRAADIAGDSPEAAVVVPELRRFSYGQLAAATNSFDQGNVIGSSNLSTVYKGVLAGDAD
GGMVVAVKRLNLEQFPSKSDKCFLTELATLSRLRHKNLARVVGYAWEAGKIKALVLDYMV
NGDLDGAIHGGAAAPPPAPSRWTVRERLRVCVSVAHGLVYLHSGYDFPVVHCDVKPSNVL
LDGDWEARVSDFGTARMLGVHLPAAANAAAQSTATSSAFRGTVGYMAPEFAYMRTVSTKV
DVFSFGVLAMELFTGRRPTGTIEEDGVPLTLQQLVDNAVSRGLDGVHAVLDPRMKVATEA
DLSTAADVLAVALSCAAFEPADRPDMGAVLSSLLKMSKLVGED

1/ Sur le site du NCBI

  • rechercher si cette séquence de riz est déjà repertoriée dans les bases de données via une analyse BlastP en selectionnant 'Database: nr'
  • refaites une analyse BlastP mais en sélectionnant 'Database: UniprotKb/swissProt'
  • que remarquez-vous ?
  • que pouvez-vous conclure ?

Annexes

>FLS2_ARATH
MKLLSKTFLILTLTFFFFGIALAKQSFEPEIEALKSFKNGISNDPLGVLSDWTIIGSLRH
CNWTGITCDSTGHVVSVSLLEKQLEGVLSPAIANLTYLQVLDLTSNSFTGKIPAEIGKLT
ELNQLILYLNYFSGSIPSGIWELKNIFYLDLRNNLLSGDVPEEICKTSSLVLIGFDYNNL
TGKIPECLGDLVHLQMFVAAGNHLTGSIPVSIGTLANLTDLDLSGNQLTGKIPRDFGNLL
NLQSLVLTENLLEGDIPAEIGNCSSLVQLELYDNQLTGKIPAELGNLVQLQALRIYKNKL
TSSIPSSLFRLTQLTHLGLSENHLVGPISEEIGFLESLEVLTLHSNNFTGEFPQSITNLR
NLTVLTVGFNNISGELPADLGLLTNLRNLSAHDNLLTGPIPSSISNCTGLKLLDLSHNQM
TGEIPRGFGRMNLTFISIGRNHFTGEIPDDIFNCSNLETLSVADNNLTGTLKPLIGKLQK
LRILQVSYNSLTGPIPREIGNLKDLNILYLHSNGFTGRIPREMSNLTLLQGLRMYSNDLE
GPIPEEMFDMKLLSVLDLSNNKFSGQIPALFSKLESLTYLSLQGNKFNGSIPASLKSLSL
LNTFDISDNLLTGTIPGELLASLKNMQLYLNFSNNLLTGTIPKELGKLEMVQEIDLSNNL
FSGSIPRSLQACKNVFTLDFSQNNLSGHIPDEVFQGMDMIISLNLSRNSFSGEIPQSFGN
MTHLVSLDLSSNNLTGEIPESLANLSTLKHLKLASNNLKGHVPESGVFKNINASDLMGNT
DLCGSKKPLKPCTIKQKSSHFSKRTRVILIILGSAAALLLVLLLVLILTCCKKKEKKIEN
SSESSLPDLDSALKLKRFEPKELEQATDSFNSANIIGSSSLSTVYKGQLEDGTVIAVKVL
NLKEFSAESDKWFYTEAKTLSQLKHRNLVKILGFAWESGKTKALVLPFMENGNLEDTIHG
SAAPIGSLLEKIDLCVHIASGIDYLHSGYGFPIVHCDLKPANILLDSDRVAHVSDFGTAR
ILGFREDGSTTASTSAFEGTIGYLAPEFAYMRKVTTKADVFSFGIIMMELMTKQRPTSLN
DEDSQDMTLRQLVEKSIGNGRKGMVRVLDMELGDSIVSLKQEEAIEDFLKLCLFCTSSRP
EDRPDMNEILTHLMKLRGKANSFREDRNEDREV


Résultats d'InterProScan
Résultats THMM
Résultats SignalP