TD2 Genome Selection Plantes
From silico.biotoul.fr
(→Objectifs) |
(→Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot)) |
||
(85 intermediate revisions not shown) | |||
Line 1: | Line 1: | ||
+ | ''' | ||
==Objectifs== | ==Objectifs== | ||
- | Ce TD a pour but d'apprendre a comparer des | + | Ce TD a pour but d'apprendre a comparer des séquences deux a deux via différentes methodes (matrice de point, alignement global et local), à definir des signatures protéiques après utilisation d'alignement multiple, a mettre en application votre savoir-faire ! |
+ | |||
+ | Quelques liens utiles: | ||
+ | *[https://www.ncbi.nlm.nih.gov/ NCBI] | ||
+ | |||
+ | *[http://www.ebi.ac.uk/ EBI - European Bioinformatics Institute] | ||
== Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot) == | == Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot) == | ||
- | * Rechercher les 2 séquences enregistrées sous les numéros d'accession | + | * Rechercher les 2 séquences enregistrées sous les numéros d'accession P10415 et Q64373 |
* Que pouvez vous dire sur ces 2 séquences ? | * Que pouvez vous dire sur ces 2 séquences ? | ||
- | * Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot). Les logiciels sont disponibles dans la suite [http:// | + | * Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot). |
- | :Utiliser '''DOTPATH''' qui permet de dessiner un '''dotplot''' avec une taille de mot fixée | + | Les logiciels sont disponibles dans la suite EMBOSS [http://bioinfo.genotoul.fr/ de la Genopole de Toulouse] ou du centre de [http://www.bioinformatics.nl/emboss-explorer/ Bioinformatique des Pays Bas] |
+ | :Utiliser '''DOTPATH''' qui permet de dessiner un '''dotplot''' avec une taille de mot fixée et visualiser des diagonales 'd'identité' | ||
+ | :Faites la même analyse avec '''DOTMATCHER''' en gardant les paramètres par défaut, et qui permet de visualiser des diagnonales de 'similarité' | ||
:Que pouvez-vous conclure ? | :Que pouvez-vous conclure ? | ||
+ | |||
+ | == Exercice 2: Comparaison de 2 séquences par alignement global et local : Cas d'Ecole== | ||
+ | |||
+ | Voici 2 séquences, au format FASTA : | ||
+ | |||
+ | >prot1 | ||
+ | |||
+ | MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS | ||
+ | |||
+ | >prot2 | ||
+ | |||
+ | MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI | ||
+ | |||
+ | *Faites un dotplot de ces 2 séquences : qu'observez-vous ? | ||
+ | |||
+ | * Faites un alignement '''global''' (de bout à bout) entre les 2 séquences avec '''Stretcher''' disponible sur EMBOSS | ||
+ | :Qu'observez vous ? | ||
+ | :Combien y a-t-il de gaps ? A quoi correspondent-ils ?<br/> | ||
+ | :A quoi correspond le pourcentage de similarité ? <br/> | ||
+ | :Quels sont les paramètres de calcul du score ? <br/> | ||
+ | :Votre alignement est-il significatif ? | ||
+ | |||
+ | * Faites un alignement local avec '''Matcher''' disponible sur EMBOSS. | ||
+ | '''''NB:''' dans 'alternative matches' indiquez 10, de façon a visualiser 10 alignements locaux'' | ||
+ | :Qu'observez-vous ? <br/> | ||
+ | :Regardez les autres alignements locaux. Sont-il significatifs ? <br/> | ||
+ | |||
+ | '''''NB''': si vous avez besoin de convertir vos séquences au Format Fasta un petit outil bien utile :[https://www-bimas.cit.nih.gov/cgi-bin/molbio/sequence_conversion ReadSeq]'' | ||
+ | |||
+ | == Exercice 3 : Comparaison de plusieurs séquences par alignement multiple == | ||
+ | |||
+ | L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'en définir les liens évolutifs ou d'identifier des 'zones' (motifs/domaines) conservés pouvant décrire la famille protéique | ||
+ | |||
+ | * Dans la banque de données UniProt/SwissProt au NCBI, identifiez les séquences protéiques "THAP" de l'homme, la souris, le poulet et le zebrafish. Eliminez les séquences isoformes 2 et 3. | ||
+ | * Récupérez l'ensemble des séquences dans un fichier au format Fasta | ||
+ | * Réalisez un alignement de l'ensemble des séquences (=alignement multiple) en utilisant Clustal Omega disponible a [https://www.ebi.ac.uk/ l'EBI] (>Services) | ||
+ | * Trouvez-vous des 'zones similaires' (=domaines) à l'ensemble de ces séquences. | ||
+ | '''''NB : Le motif 'AVPTIF' marque une partie du domaine : le trouvez-vous sur toutes les séquences ?''''' | ||
+ | |||
+ | Nous allons maintenant essayer de construire un pattern/signature caractéristique de cette famille de protéine en sebasant sur les 'zones similaires' préalablement identifiées | ||
+ | |||
+ | *Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap) | ||
+ | Voici l'exemple d'un début d'une signature (ou ''pattern'') : '''Q-L-x(3)-P-x(6)-[FY]-x(2)-V-x(3)-[LVF]-[FGD]-x(2,8)-[GPS]''' | ||
+ | Comment lire cette signature ? <br> | ||
+ | Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement <br> | ||
+ | x(3) : 3 colonnes avec des acides aminés variables <br> | ||
+ | [FY] : dans cette colonne seuls les acides aminés F ou Y sont présents <br> | ||
+ | x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences <br> | ||
+ | |||
+ | *Tester la spécificité de votre signature sur [http://prosite.expasy.org/scanprosite/ '''ScanProsite'''] (choisir l'option 2) contre SwissProt ou trEMBL (plus long !) <br> | ||
+ | |||
+ | = Mise en application...= | ||
+ | |||
+ | Au laboratoire, vous êtes amenés a travailler sur la séquence ci-dessous: | ||
+ | <!-- | ||
+ | >prot | ||
+ | IGNLKDLNILYLHSNGFTGRIPREMSNLTLANLTDLDLSGNQLTGKIPRDFAALLLVLLEKKIENITCDS | ||
+ | MKLLSKTFLILTLTFFFFGIALAKQSFEPEIEALKSFKNGISNDPLGVLSDWTIIGSLRHCNWTGITCDS | ||
+ | TGHVVSVSLLEKQLEGVLSPAIANLTYLQVLDLTSNSFTGKIPAEIGKLTELNQLILYLNYFSGSIPSGI | ||
+ | WELKNIFYLDLRNNLLSGDVPEEICKTSSLVLIGFDYNNLTGKIPECLGDLVHLQMFVAAGNHLTGSIPV | ||
+ | SIGTLANLTDLDLSGNQLTGKIPRDFGNLLNLQSLVLTENLLEGDIPAEIGNCSSLVQLELYDNQLTGKI | ||
+ | PAELGNLVQLQALRIYKNKLTSSIPSSLFRLTQLTHLGLSENHLVGPISEEIGFLESLEVLTLHSNNFTG | ||
+ | EFPQSITNLRNLTVLTVGFNNISGELPADLGLLTNLRNLSAHDNLLTGPIPSSISNCTGLKLLDLSHNQM | ||
+ | TGEIPRGFGRMNLTFISIGRNHFTGEIPDDIFNCSNLETLSVADNNLTGTLKPLIGKLQKLRILQVSYNS | ||
+ | LTGPIPREIGNLKDLNILYLHSNGFTGRIPREMSNLTLLQGLRMYSNDLEGPIPEEMFDMKLLSVLDLSN | ||
+ | NKFSGQIPALFSKLESLTYLSLQGNKFNGSIPASLKSLSLLNTFDISDNLLTGTIPGELLASLKNMQLYL | ||
+ | NFSNNLLTGTIPKELGKLEMVQEIDLSNNLFSGSIPRSLQACKNVFTLDFSQNNLSGHIPDEVFQGMDMI | ||
+ | ISLNLSRNSFSGEIPQSFGNMTHLVSLDLSSNNLTGEIPESLANLSTLKHLKLASNNLKGHVPESGVFKN | ||
+ | INASDLMGNTDLCGSKKPLKPCTIKQKSSHFSKRTRVILIILGSAAALLLVLLLVLILTCCKKKEKKIEN | ||
+ | SSESSLPDLDSALKLKRFEPKELEQATDSFNSANIIGSSSLSTVYKGQLEDGTVIAVKVLNLKEFSAESD | ||
+ | KWFYTEAKTLSQLKHRNLVKILGFAWESGKTKALVLPFMENGNLEDTIHGSAAPIGSLLEKIDLCVHIAS | ||
+ | GIDYLHSGYGFPIVHCDLKPANILLDSDRVAHVSDFGTARILGFREDGSTTASTSAFEGTIGYLAPEFAY | ||
+ | MRKVTTKADVFSFGIIMMELMTKQRPTSLNDEDSQDMTLRQLVEKSIGNGRKGMVRVLDMELGDSIVSLK | ||
+ | QEEAIEDFLKLCLFCTSSRPEDRPDMNEILTHLMKLRGKANSFREDRNEDREV | ||
+ | |||
+ | FLS2 A. thaliana, recepteur LRR-kinase >gi|15237426|ref|NP_199445.1| LRR receptor-like serine/threonine-protein kinase FLS2 [Arabidopsis thaliana] --> | ||
+ | |||
+ | >seq1 | ||
+ | |||
+ | attggcaacctgaaagatctgaacattctgtatctgcatagcaacggctttaccggccgc | ||
+ | attccgcgcgaaatgagcaacctgaccctggcgaacctgaccgatctggatctgagcggc | ||
+ | aaccagctgaccggcaaaattccgcgcgattttgcggcgctgctgctggtgctgctggaa | ||
+ | aaaaaaattgaaaacattacctgcgatagcatgaaactgctgagcaaaacctttctgatt | ||
+ | ctgaccctgaccttttttttttttggcattgcgctggcgaaacagagctttgaaccggaa | ||
+ | attgaagcgctgaaaagctttaaaaacggcattagcaacgatccgctgggcgtgctgagc | ||
+ | gattggaccattattggcagcctgcgccattgcaactggaccggcattacctgcgatagc | ||
+ | accggccatgtggtgagcgtgagcctgctggaaaaacagctggaaggcgtgctgagcccg | ||
+ | gcgattgcgaacctgacctatctgcaggtgctggatctgaccagcaacagctttaccggc | ||
+ | aaaattccggcggaaattggcaaactgaccgaactgaaccagctgattctgtatctgaac | ||
+ | tattttagcggcagcattccgagcggcatttgggaactgaaaaacattttttatctggat | ||
+ | ctgcgcaacaacctgctgagcggcgatgtgccggaagaaatttgcaaaaccagcagcctg | ||
+ | gtgctgattggctttgattataacaacctgaccggcaaaattccggaatgcctgggcgat | ||
+ | ctggtgcatctgcagatgtttgtggcggcgggcaaccatctgaccggcagcattccggtg | ||
+ | agcattggcaccctggcgaacctgaccgatctggatctgagcggcaaccagctgaccggc | ||
+ | aaaattccgcgcgattttggcaacctgctgaacctgcagagcctggtgctgaccgaaaac | ||
+ | ctgctggaaggcgatattccggcggaaattggcaactgcagcagcctggtgcagctggaa | ||
+ | ctgtatgataaccagctgaccggcaaaattccggcggaactgggcaacctggtgcagctg | ||
+ | caggcgctgcgcatttataaaaacaaactgaccagcagcattccgagcagcctgtttcgc | ||
+ | ctgacccagctgacccatctgggcctgagcgaaaaccatctggtgggcccgattagcgaa | ||
+ | gaaattggctttctggaaagcctggaagtgctgaccctgcatagcaacaactttaccggc | ||
+ | gaatttccgcagagcattaccaacctgcgcaacctgaccgtgctgaccgtgggctttaac | ||
+ | aacattagcggcgaactgccggcggatctgggcctgctgaccaacctgcgcaacctgagc | ||
+ | gcgcatgataacctgctgaccggcccgattccgagcagcattagcaactgcaccggcctg | ||
+ | aaactgctggatctgagccataaccagatgaccggcgaaattccgcgcggctttggccgc | ||
+ | atgaacctgacctttattagcattggccgcaaccattttaccggcgaaattccggatgat | ||
+ | atttttaactgcagcaacctggaaaccctgagcgtggcggataacaacctgaccggcacc | ||
+ | ctgaaaccgctgattggcaaactgcagaaactgcgcattctgcaggtgagctataacagc | ||
+ | ctgaccggcccgattccgcgcgaaattggcaacctgaaagatctgaacattctgtatctg | ||
+ | catagcaacggctttaccggccgcattccgcgcgaaatgagcaacctgaccctgctgcag | ||
+ | ggcctgcgcatgtatagcaacgatctggaaggcccgattccggaagaaatgtttgatatg | ||
+ | aaactgctgagcgtgctggatctgagcaacaacaaatttagcggccagattccggcgctg | ||
+ | tttagcaaactggaaagcctgacctatctgagcctgcagggcaacaaatttaacggcagc | ||
+ | attccggcgagcctgaaaagcctgagcctgctgaacacctttgatattagcgataacctg | ||
+ | ctgaccggcaccattccgggcgaactgctggcgagcctgaaaaacatgcagctgtatctg | ||
+ | aactttagcaacaacctgctgaccggcaccattccgaaagaactgggcaaactggaaatg | ||
+ | gtgcaggaaattgatctgagcaacaacctgtttagcggcagcattccgcgcagcctgcag | ||
+ | gcgtgcaaaaacgtgtttaccctggattttagccagaacaacctgagcggccatattccg | ||
+ | gatgaagtgtttcagggcatggatatgattattagcctgaacctgagccgcaacagcttt | ||
+ | agcggcgaaattccgcagagctttggcaacatgacccatctggtgagcctggatctgagc | ||
+ | agcaacaacctgaccggcgaaattccggaaagcctggcgaacctgagcaccctgaaacat | ||
+ | ctgaaactggcgagcaacaacctgaaaggccatgtgccggaaagcggcgtgtttaaaaac | ||
+ | attaacgcgagcgatctgatgggcaacaccgatctgtgcggcagcaaaaaaccgctgaaa | ||
+ | ccgtgcaccattaaacagaaaagcagccattttagcaaacgcacccgcgtgattctgatt | ||
+ | attctgggcagcgcggcggcgctgctgctggtgctgctgctggtgctgattctgacctgc | ||
+ | tgcaaaaaaaaagaaaaaaaaattgaaaacagcagcgaaagcagcctgccggatctggat | ||
+ | agcgcgctgaaactgaaacgctttgaaccgaaagaactggaacaggcgaccgatagcttt | ||
+ | aacagcgcgaacattattggcagcagcagcctgagcaccgtgtataaaggccagctggaa | ||
+ | gatggcaccgtgattgcggtgaaagtgctgaacctgaaagaatttagcgcggaaagcgat | ||
+ | aaatggttttataccgaagcgaaaaccctgagccagctgaaacatcgcaacctggtgaaa | ||
+ | attctgggctttgcgtgggaaagcggcaaaaccaaagcgctggtgctgccgtttatggaa | ||
+ | aacggcaacctggaagataccattcatggcagcgcggcgccgattggcagcctgctggaa | ||
+ | aaaattgatctgtgcgtgcatattgcgagcggcattgattatctgcatagcggctatggc | ||
+ | tttccgattgtgcattgcgatctgaaaccggcgaacattctgctggatagcgatcgcgtg | ||
+ | gcgcatgtgagcgattttggcaccgcgcgcattctgggctttcgcgaagatggcagcacc | ||
+ | accgcgagcaccagcgcgtttgaaggcaccattggctatctggcgccggaatttgcgtat | ||
+ | atgcgcaaagtgaccaccaaagcggatgtgtttagctttggcattattatgatggaactg | ||
+ | atgaccaaacagcgcccgaccagcctgaacgatgaagatagccaggatatgaccctgcgc | ||
+ | cagctggtggaaaaaagcattggcaacggccgcaaaggcatggtgcgcgtgctggatatg | ||
+ | gaactgggcgatagcattgtgagcctgaaacaggaagaagcgattgaagattttctgaaa | ||
+ | ctgtgcctgttttgcaccagcagccgcccggaagatcgcccggatatgaacgaaattctg | ||
+ | acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat | ||
+ | cgcgaagtg | ||
+ | |||
+ | |||
+ | ''' | ||
+ | Répondez aux questions suivantes:''' | ||
+ | * a quel organisme appartient cette séquence ? | ||
+ | * cette séquence est-elle codante ? | ||
+ | * quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ? | ||
+ | * existe-il des orthologues a cette protéine ? | ||
+ | * que veut dire db_xref=CDD:173623 sur la fiche GenPept? | ||
+ | * quelle est la fonction putative de cette protéine ? | ||
+ | * exite-t-il des domaines conservés dans cette protéine? | ||
+ | |||
+ | <!-- | ||
+ | Sauvegardez la séquence de l'ARNm et du gène au format fasta | ||
+ | |||
+ | * sans tenir compte des informations disponibles dans la fiche GenPept, identifiez le nombre d'introns/exons dans le gène codant cette protéine... peut etre par Dot Plot... | ||
+ | --> |
Revision as of 15:02, 3 December 2018
Contents |
Objectifs
Ce TD a pour but d'apprendre a comparer des séquences deux a deux via différentes methodes (matrice de point, alignement global et local), à definir des signatures protéiques après utilisation d'alignement multiple, a mettre en application votre savoir-faire !
Quelques liens utiles:
Exercice 1 : Comparaison de 2 séquences avec une matrice de point (dot plot)
- Rechercher les 2 séquences enregistrées sous les numéros d'accession P10415 et Q64373
- Que pouvez vous dire sur ces 2 séquences ?
- Comparer les séquences deux à deux, en utilisant une matrice de point (dotplot).
Les logiciels sont disponibles dans la suite EMBOSS de la Genopole de Toulouse ou du centre de Bioinformatique des Pays Bas
- Utiliser DOTPATH qui permet de dessiner un dotplot avec une taille de mot fixée et visualiser des diagonales 'd'identité'
- Faites la même analyse avec DOTMATCHER en gardant les paramètres par défaut, et qui permet de visualiser des diagnonales de 'similarité'
- Que pouvez-vous conclure ?
Exercice 2: Comparaison de 2 séquences par alignement global et local : Cas d'Ecole
Voici 2 séquences, au format FASTA :
>prot1
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVGVLYLYYYHAE GKKAKINEGITQGSHKWVFIEKVDNPVQKLLEFKNRGFQIVATWLSKESVNFREVDYTKP TVLVVGNELQGVSPEIVEIADKKIVIPMYGMAQSLNVSVATGIILYEAQRQREEKGMYSR PSLSEEEIQKILKKWAYEDVIKERKRTLSTS
>prot2
MVMEYLVLEKRLKRLREVLEKRQKDLIVFADNVKNEHNFSAIVRTCDAVATWLSKESVNF REVDYTKPTVLVVGNELQGVSPEIVEIAVGVLYLYYYHAEGKKAKINEGI
- Faites un dotplot de ces 2 séquences : qu'observez-vous ?
- Faites un alignement global (de bout à bout) entre les 2 séquences avec Stretcher disponible sur EMBOSS
- Qu'observez vous ?
- Combien y a-t-il de gaps ? A quoi correspondent-ils ?
- A quoi correspond le pourcentage de similarité ?
- Quels sont les paramètres de calcul du score ?
- Votre alignement est-il significatif ?
- Faites un alignement local avec Matcher disponible sur EMBOSS.
NB: dans 'alternative matches' indiquez 10, de façon a visualiser 10 alignements locaux
- Qu'observez-vous ?
- Regardez les autres alignements locaux. Sont-il significatifs ?
NB: si vous avez besoin de convertir vos séquences au Format Fasta un petit outil bien utile :ReadSeq
Exercice 3 : Comparaison de plusieurs séquences par alignement multiple
L'idée maintenant est de comparer plusieurs séquences similaires entre elles, afin par exemple d'en définir les liens évolutifs ou d'identifier des 'zones' (motifs/domaines) conservés pouvant décrire la famille protéique
- Dans la banque de données UniProt/SwissProt au NCBI, identifiez les séquences protéiques "THAP" de l'homme, la souris, le poulet et le zebrafish. Eliminez les séquences isoformes 2 et 3.
- Récupérez l'ensemble des séquences dans un fichier au format Fasta
- Réalisez un alignement de l'ensemble des séquences (=alignement multiple) en utilisant Clustal Omega disponible a l'EBI (>Services)
- Trouvez-vous des 'zones similaires' (=domaines) à l'ensemble de ces séquences.
NB : Le motif 'AVPTIF' marque une partie du domaine : le trouvez-vous sur toutes les séquences ?
Nous allons maintenant essayer de construire un pattern/signature caractéristique de cette famille de protéine en sebasant sur les 'zones similaires' préalablement identifiées
- Construire une signature PROSITE à partir de votre alignement (n'utilisez pas le LOGO, sinon vous ne voyez pas précisément les zones de gap)
Voici l'exemple d'un début d'une signature (ou pattern) : Q-L-x(3)-P-x(6)-[FY]-x(2)-V-x(3)-[LVF]-[FGD]-x(2,8)-[GPS]
Comment lire cette signature ?
Q-L : il n'y a que les acides aminés Q puis L dans 2 colonnes successives de l'alignement
x(3) : 3 colonnes avec des acides aminés variables
[FY] : dans cette colonne seuls les acides aminés F ou Y sont présents
x(2,8) : zone avec un gap. Entre 2 et 8 résidus (acides aminés) quelconques, suivant les séquences
- Tester la spécificité de votre signature sur ScanProsite (choisir l'option 2) contre SwissProt ou trEMBL (plus long !)
Mise en application...
Au laboratoire, vous êtes amenés a travailler sur la séquence ci-dessous:
>seq1
attggcaacctgaaagatctgaacattctgtatctgcatagcaacggctttaccggccgc attccgcgcgaaatgagcaacctgaccctggcgaacctgaccgatctggatctgagcggc aaccagctgaccggcaaaattccgcgcgattttgcggcgctgctgctggtgctgctggaa aaaaaaattgaaaacattacctgcgatagcatgaaactgctgagcaaaacctttctgatt ctgaccctgaccttttttttttttggcattgcgctggcgaaacagagctttgaaccggaa attgaagcgctgaaaagctttaaaaacggcattagcaacgatccgctgggcgtgctgagc gattggaccattattggcagcctgcgccattgcaactggaccggcattacctgcgatagc accggccatgtggtgagcgtgagcctgctggaaaaacagctggaaggcgtgctgagcccg gcgattgcgaacctgacctatctgcaggtgctggatctgaccagcaacagctttaccggc aaaattccggcggaaattggcaaactgaccgaactgaaccagctgattctgtatctgaac tattttagcggcagcattccgagcggcatttgggaactgaaaaacattttttatctggat ctgcgcaacaacctgctgagcggcgatgtgccggaagaaatttgcaaaaccagcagcctg gtgctgattggctttgattataacaacctgaccggcaaaattccggaatgcctgggcgat ctggtgcatctgcagatgtttgtggcggcgggcaaccatctgaccggcagcattccggtg agcattggcaccctggcgaacctgaccgatctggatctgagcggcaaccagctgaccggc aaaattccgcgcgattttggcaacctgctgaacctgcagagcctggtgctgaccgaaaac ctgctggaaggcgatattccggcggaaattggcaactgcagcagcctggtgcagctggaa ctgtatgataaccagctgaccggcaaaattccggcggaactgggcaacctggtgcagctg caggcgctgcgcatttataaaaacaaactgaccagcagcattccgagcagcctgtttcgc ctgacccagctgacccatctgggcctgagcgaaaaccatctggtgggcccgattagcgaa gaaattggctttctggaaagcctggaagtgctgaccctgcatagcaacaactttaccggc gaatttccgcagagcattaccaacctgcgcaacctgaccgtgctgaccgtgggctttaac aacattagcggcgaactgccggcggatctgggcctgctgaccaacctgcgcaacctgagc gcgcatgataacctgctgaccggcccgattccgagcagcattagcaactgcaccggcctg aaactgctggatctgagccataaccagatgaccggcgaaattccgcgcggctttggccgc atgaacctgacctttattagcattggccgcaaccattttaccggcgaaattccggatgat atttttaactgcagcaacctggaaaccctgagcgtggcggataacaacctgaccggcacc ctgaaaccgctgattggcaaactgcagaaactgcgcattctgcaggtgagctataacagc ctgaccggcccgattccgcgcgaaattggcaacctgaaagatctgaacattctgtatctg catagcaacggctttaccggccgcattccgcgcgaaatgagcaacctgaccctgctgcag ggcctgcgcatgtatagcaacgatctggaaggcccgattccggaagaaatgtttgatatg aaactgctgagcgtgctggatctgagcaacaacaaatttagcggccagattccggcgctg tttagcaaactggaaagcctgacctatctgagcctgcagggcaacaaatttaacggcagc attccggcgagcctgaaaagcctgagcctgctgaacacctttgatattagcgataacctg ctgaccggcaccattccgggcgaactgctggcgagcctgaaaaacatgcagctgtatctg aactttagcaacaacctgctgaccggcaccattccgaaagaactgggcaaactggaaatg gtgcaggaaattgatctgagcaacaacctgtttagcggcagcattccgcgcagcctgcag gcgtgcaaaaacgtgtttaccctggattttagccagaacaacctgagcggccatattccg gatgaagtgtttcagggcatggatatgattattagcctgaacctgagccgcaacagcttt agcggcgaaattccgcagagctttggcaacatgacccatctggtgagcctggatctgagc agcaacaacctgaccggcgaaattccggaaagcctggcgaacctgagcaccctgaaacat ctgaaactggcgagcaacaacctgaaaggccatgtgccggaaagcggcgtgtttaaaaac attaacgcgagcgatctgatgggcaacaccgatctgtgcggcagcaaaaaaccgctgaaa ccgtgcaccattaaacagaaaagcagccattttagcaaacgcacccgcgtgattctgatt attctgggcagcgcggcggcgctgctgctggtgctgctgctggtgctgattctgacctgc tgcaaaaaaaaagaaaaaaaaattgaaaacagcagcgaaagcagcctgccggatctggat agcgcgctgaaactgaaacgctttgaaccgaaagaactggaacaggcgaccgatagcttt aacagcgcgaacattattggcagcagcagcctgagcaccgtgtataaaggccagctggaa gatggcaccgtgattgcggtgaaagtgctgaacctgaaagaatttagcgcggaaagcgat aaatggttttataccgaagcgaaaaccctgagccagctgaaacatcgcaacctggtgaaa attctgggctttgcgtgggaaagcggcaaaaccaaagcgctggtgctgccgtttatggaa aacggcaacctggaagataccattcatggcagcgcggcgccgattggcagcctgctggaa aaaattgatctgtgcgtgcatattgcgagcggcattgattatctgcatagcggctatggc tttccgattgtgcattgcgatctgaaaccggcgaacattctgctggatagcgatcgcgtg gcgcatgtgagcgattttggcaccgcgcgcattctgggctttcgcgaagatggcagcacc accgcgagcaccagcgcgtttgaaggcaccattggctatctggcgccggaatttgcgtat atgcgcaaagtgaccaccaaagcggatgtgtttagctttggcattattatgatggaactg atgaccaaacagcgcccgaccagcctgaacgatgaagatagccaggatatgaccctgcgc cagctggtggaaaaaagcattggcaacggccgcaaaggcatggtgcgcgtgctggatatg gaactgggcgatagcattgtgagcctgaaacaggaagaagcgattgaagattttctgaaa ctgtgcctgttttgcaccagcagccgcccggaagatcgcccggatatgaacgaaattctg acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat cgcgaagtg
Répondez aux questions suivantes:
- a quel organisme appartient cette séquence ?
- cette séquence est-elle codante ?
- quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ?
- existe-il des orthologues a cette protéine ?
- que veut dire db_xref=CDD:173623 sur la fiche GenPept?
- quelle est la fonction putative de cette protéine ?
- exite-t-il des domaines conservés dans cette protéine?