TP Initiation Bioanalyse

From silico.biotoul.fr

1 Objectifs
2 Exercice 1 : Recherche dans les banques via l'utilisation de mots clés ou le numéro d'accession
3 Exercice 2 : Recherche dans les banques via une séquence (protéique ou nucléique): l'outil BLAST
4 Exercice 3 : Recherche d'ORF dans une séquence nucléique
5 Exercice 4 : Recherche dans des banques de données spécialisées, l'exemple des banques de familles et de domaines protéiques
6 Exercice 5 : Comparaison de séquences
7 Mise en Application pour vous entrainer !

Objectifs

Ce TD a pour but de vous présenter quelques outils utilisés en bioanalyse et vous familiariser avec la recherche d'informations scientifiques disponibles dans les banques de données biologiques (Database)

Globalement les informations sont regroupées dans 2 centres :

NCBI National Center for Biotechnology Information (NIH, USA)
EBI European Bioinformatics Institute (EMBL, GB)

Nous utiliserons également la suite de logiciels dédiée à l'analyse de séquences biologiques EMBOSS, mise à disposition par la Genopole de Toulouse.

Exercice 1 : Recherche dans les banques via l'utilisation de mots clés ou le numéro d'accession

1/ Aller sur le site de EBI - European Bioinformatics Institute

rechercher Uniprot (DataResources>Browse EMBL WebService (en bas page droite)>AvailableDataBases(colonne gauche)>Uniprot), qu'est ce que Uniprot ?
combien de séquences sont référencées dans TrEMBL ?
combien de séquences sont référencées dans Uniprot/Kb swissProt ?

2/Sur la banque de données d' UniProt/Kb à l'EBI: chercher la séquence dont le numéro d'accession est P01308

de quelle protéine s'agit-il ? chez quel organisme ?
quelle est la taille de cette séquence ?
y a-t-il des preuves expérimentales de l'existence de cette protéine ?
est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?

3/Aller sur le site du NCBI: identifiez

toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre), combien sont-elles ?
les séquences protéiques de Phytophthora parasitica pouvant interagir avec la cellulose

Pour cela sur le site du NCBI sélectionnez les banques "protéines", puis dans la barre de requête il est possible de combiner plusieurs termes à l'aide des opérateurs booléens (AND, OR, NOT) puis l'option Advanced (sous la barre de requête) et le bouton Preview, en précisant les champs, Organism, Title... à l'aide de l'outil Search builder et conjuguer vos requêtes. L'historique de vos requêtes est visible.

On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

comment s'organise cette fiche ? (format GenPept # UniprotKb)
quel est le nom de cette protéine ?
quel le nombre d'acides aminés constituant cette protéine ?
dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
sous quel numéro cette publication est-elle référencée dans PubMed ?

On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

à quoi correspondent les différents liens croisées :

- db_xref="InterPro:IPR000177" - db_xref="InterPro:IPR000254" - db_xref="UniProtKB/TrEMBL:O42830

quels domaines protéiques sont présents dans la protéine ?
définissez l'architecture de cette protéine
affichez votre séquence protéique au format FASTA (haut de page>FASTA). Qu'est ce que le format FASTA ?

Exercice 2 : Recherche dans les banques via une séquence (protéique ou nucléique): l'outil BLAST

Ci-dessous une séquence protéique inconnue au format FASTA

>sequence_proteique_inconnue
HAILRLDLAGRDLTDHSSSILTERGYSQTTTAEREIVRDMKEKVSYIALDYEQELETSKTAAAVEKSFELPDGQVITIGVERFRCPEVLFQPSMIGMENPGIHETTYNSI

Afin de savoir si cette séquence est répertoriée dans les bases de données faites un BLAST au NCBI.
Quel type de 'Blast' choisissez-vous ? Faites un Blast contre la banque de données UniprotKB/SwissProt
A quoi correspond la E-value ?

Regardez un alignement entre votre séquence requête appelée QUERY et la séquence présentant une homologie et répertoriée dans les banques de données (SUBJECT)

Qu'indique les signe '+' et ' rien ' dans la ligne intermédiaire de l'alignement ?
Votre séquence QUERY présente-elle des similarités avec d'autres séquences ? Si oui, sur quelle partie ?

Ci-dessous une séquence nucléique inconnue au format FASTA

>sequence_nucleique_inconnue

GGCAACTTCAACTGGGGCCGGGTGGTTGCCCTTTTCTACTTTGCTAGCAAACTGGTGCTCAAGGCCCTGTGCACTAAAGTGCCCGAGCTGATCAG AACCATCATGGGCTGGACACTGGACTTCCTCCGGGAGCGGCTGCTTGTCTGGATCCAAGACCAGGGTGGC TGGGATGGCCTCCTTTCCTACTTCGGGACCCCCACATGGCAGACAGTGACCATCTTTGTGGCTGGAGTCC TCACTGCCTCACTCACCATCTGGAAGAAGATGGGCTGAGGCTTCCTGCTGCCTTGGACTGTGTCTTTTCT TCATAAATTATGACATTTTTCCTGGGATGAATGGGGAACGGGGAAAGGCATTTTCCCCGTGAGGGCCGCACGTCTGCTCTTACTTTTGTAATT ATTGGGAGGGGTGGGAATGGTGGCCTGGGGGAGGTGCCAATAAACCTCAGGTCCA

Quelle est la nature (ADN, ARN..) de cette séquence ?
Est-elle répertoriée dans les bases de données ?
Présente-elle des similarités avec d'autres séquences ?

Visualisez un alignement entre votre séquence QUERY et une séquence répertoriée dans la base de donnée

Sur quel brin cette séquence inconnue présente-elle une homologie ?
Que représente les signes '--------' rencontrés sur certaines séquences ?

Exercice 3 : Recherche d'ORF dans une séquence nucléique

Il existe des outils pour déterminer les phases ouvertes de lecture (OpenReadingFrame ORF) dans une séquence nucléique. Vous disposez , en cliquant sur ce lien, d'une séquence 'BCL2' issue du séquençage d'un fragment nucléique humain. Vous allez vérifier que ce fragment est codant en recherchant les cadres ouverts de lecture présents, et en identifiant l'ORF la plus probable.

Utilisez le programme ORF Finder au NCBI pour effectuer la recherche de séquence codante (ALLResources>Resources List A-Z>ORFfinder (colonne gauche).

 Paramétrez le logiciel avec : Minimal ORF length (nt): 300  / ORF start codon to use: ATG

Interprétez le graphique et les résultats obtenus.
Quelle est la position de l'ORF la plus probable ?

Afin de valider votre hypothèse quant à l'ORF la plus probable, il est nécessaire d'aller identifier dans les banques de données si cette ORF code pour la protéine Bcl2. Pour cela vous allez réaliser un BlastP

Dans ORF Finder, utilisez l'option Blastp sur la banque Uniprot/swissProt. Que concluez-vous ?
Quel est le numéro d'accession de la protéine BCL2 dans Uniprot/SwissProt ?

Exercice 4 : Recherche dans des banques de données spécialisées, l'exemple des banques de familles et de domaines protéiques

Les banques de données peuvent être 'spécialisées' soit à un organisme (drosophile, arabidopsis...), soit à un type de séquences (nucléique, protéique..)... Ces banques peuvent être interrogées par 'mots clés', 'numéro d'accession' ou en utilisant une séquence, comme lors des exercices précédents.

Soit le numéro d'accession PF00173 issu de la banque de données PFAM

qu'est ce que PFAM ?
a quoi correspond le numéro d'accession PF00173 ?
chez combien d'espèces est-il rencontré ?
connait-on la structure 3D de ce domaine protéique ?
ce domaine est-il recensé dans d'autres banques de domaines protéiques ?

Récupérez la séquence protéique correspondant au numéro d'accession AAF36391.1 au format FASTA

Interrogez InterProSCAN à l'EBI (aller dans Services => Proteins => InterProScan)

qu'est-ce que InterproSCAN ?
cette séquence contient-elle un domaine référence dans PFAM ? si oui quel est son numéro d'accession ?
quel pourrait-etre la localisation subecllulaire de cette protéine ?
comparez vos résultats avec la fiche Uniprot/SwissProt de Q9P8P3. A qui correspond cette séquence ?

Exercice 5 : Comparaison de séquences

Différentes méthodes permettent de comparer des séquences, soit deux à deux (dot plot, alignement global, local..), soit de façon multiple (alignement multiple..) avec ou non une idée de la 'pertinence/significativité' de la comparaison.

Nous allons comparer les deux séquences : Xlev_Rhodop1 et Xlev_Rhodop2.seq

Dans un premier temps, réaliser un 'Dot Plot' (Matrice de Point) avec Dotpath disponible dans EMBOSS qui permet de dessiner une matrice de point avec une taille de mot fixée.

Avec les paramètres par défaut, comparer Rhodop1 et Rhodop2. Observez le résultat, que pouvez vous conclure ?

Dans un second temps, faites un alignement 'global' avec Stretcher disponible dans EMBOSS.

Que pensez vous de la significativite de cet alignement ? Que proposez-vous ?

Enfin, réalisez un alignement 'local' avec Matcher disponible dans EMBOSS. Demandez 10 'Number of Alternatives Matches' dans les paramètres.

Combien d'alignements locaux attendez-vous ?

Mise en Application pour vous entrainer !

Vous diposez de la séquence ci-dessous

>seq1

attggcaacctgaaagatctgaacattctgtatctgcatagcaacggctttaccggccgc attccgcgcgaaatgagcaacctgaccctggcgaacctgaccgatctggatctgagcggc aaccagctgaccggcaaaattccgcgcgattttgcggcgctgctgctggtgctgctggaa aaaaaaattgaaaacattacctgcgatagcatgaaactgctgagcaaaacctttctgatt ctgaccctgaccttttttttttttggcattgcgctggcgaaacagagctttgaaccggaa attgaagcgctgaaaagctttaaaaacggcattagcaacgatccgctgggcgtgctgagc gattggaccattattggcagcctgcgccattgcaactggaccggcattacctgcgatagc accggccatgtggtgagcgtgagcctgctggaaaaacagctggaaggcgtgctgagcccg gcgattgcgaacctgacctatctgcaggtgctggatctgaccagcaacagctttaccggc aaaattccggcggaaattggcaaactgaccgaactgaaccagctgattctgtatctgaac tattttagcggcagcattccgagcggcatttgggaactgaaaaacattttttatctggat ctgcgcaacaacctgctgagcggcgatgtgccggaagaaatttgcaaaaccagcagcctg gtgctgattggctttgattataacaacctgaccggcaaaattccggaatgcctgggcgat ctggtgcatctgcagatgtttgtggcggcgggcaaccatctgaccggcagcattccggtg agcattggcaccctggcgaacctgaccgatctggatctgagcggcaaccagctgaccggc aaaattccgcgcgattttggcaacctgctgaacctgcagagcctggtgctgaccgaaaac ctgctggaaggcgatattccggcggaaattggcaactgcagcagcctggtgcagctggaa ctgtatgataaccagctgaccggcaaaattccggcggaactgggcaacctggtgcagctg caggcgctgcgcatttataaaaacaaactgaccagcagcattccgagcagcctgtttcgc ctgacccagctgacccatctgggcctgagcgaaaaccatctggtgggcccgattagcgaa gaaattggctttctggaaagcctggaagtgctgaccctgcatagcaacaactttaccggc gaatttccgcagagcattaccaacctgcgcaacctgaccgtgctgaccgtgggctttaac aacattagcggcgaactgccggcggatctgggcctgctgaccaacctgcgcaacctgagc gcgcatgataacctgctgaccggcccgattccgagcagcattagcaactgcaccggcctg aaactgctggatctgagccataaccagatgaccggcgaaattccgcgcggctttggccgc atgaacctgacctttattagcattggccgcaaccattttaccggcgaaattccggatgat atttttaactgcagcaacctggaaaccctgagcgtggcggataacaacctgaccggcacc ctgaaaccgctgattggcaaactgcagaaactgcgcattctgcaggtgagctataacagc ctgaccggcccgattccgcgcgaaattggcaacctgaaagatctgaacattctgtatctg catagcaacggctttaccggccgcattccgcgcgaaatgagcaacctgaccctgctgcag ggcctgcgcatgtatagcaacgatctggaaggcccgattccggaagaaatgtttgatatg aaactgctgagcgtgctggatctgagcaacaacaaatttagcggccagattccggcgctg tttagcaaactggaaagcctgacctatctgagcctgcagggcaacaaatttaacggcagc attccggcgagcctgaaaagcctgagcctgctgaacacctttgatattagcgataacctg ctgaccggcaccattccgggcgaactgctggcgagcctgaaaaacatgcagctgtatctg aactttagcaacaacctgctgaccggcaccattccgaaagaactgggcaaactggaaatg gtgcaggaaattgatctgagcaacaacctgtttagcggcagcattccgcgcagcctgcag gcgtgcaaaaacgtgtttaccctggattttagccagaacaacctgagcggccatattccg gatgaagtgtttcagggcatggatatgattattagcctgaacctgagccgcaacagcttt agcggcgaaattccgcagagctttggcaacatgacccatctggtgagcctggatctgagc agcaacaacctgaccggcgaaattccggaaagcctggcgaacctgagcaccctgaaacat ctgaaactggcgagcaacaacctgaaaggccatgtgccggaaagcggcgtgtttaaaaac attaacgcgagcgatctgatgggcaacaccgatctgtgcggcagcaaaaaaccgctgaaa ccgtgcaccattaaacagaaaagcagccattttagcaaacgcacccgcgtgattctgatt attctgggcagcgcggcggcgctgctgctggtgctgctgctggtgctgattctgacctgc tgcaaaaaaaaagaaaaaaaaattgaaaacagcagcgaaagcagcctgccggatctggat agcgcgctgaaactgaaacgctttgaaccgaaagaactggaacaggcgaccgatagcttt aacagcgcgaacattattggcagcagcagcctgagcaccgtgtataaaggccagctggaa gatggcaccgtgattgcggtgaaagtgctgaacctgaaagaatttagcgcggaaagcgat aaatggttttataccgaagcgaaaaccctgagccagctgaaacatcgcaacctggtgaaa attctgggctttgcgtgggaaagcggcaaaaccaaagcgctggtgctgccgtttatggaa aacggcaacctggaagataccattcatggcagcgcggcgccgattggcagcctgctggaa aaaattgatctgtgcgtgcatattgcgagcggcattgattatctgcatagcggctatggc tttccgattgtgcattgcgatctgaaaccggcgaacattctgctggatagcgatcgcgtg gcgcatgtgagcgattttggcaccgcgcgcattctgggctttcgcgaagatggcagcacc accgcgagcaccagcgcgtttgaaggcaccattggctatctggcgccggaatttgcgtat atgcgcaaagtgaccaccaaagcggatgtgtttagctttggcattattatgatggaactg atgaccaaacagcgcccgaccagcctgaacgatgaagatagccaggatatgaccctgcgc cagctggtggaaaaaagcattggcaacggccgcaaaggcatggtgcgcgtgctggatatg gaactgggcgatagcattgtgagcctgaaacaggaagaagcgattgaagattttctgaaa ctgtgcctgttttgcaccagcagccgcccggaagatcgcccggatatgaacgaaattctg acccatctgatgaaactgcgcggcaaagcgaacagctttcgcgaagatcgcaacgaagat cgcgaagtg

Répondez aux questions suivantes:

A quel organisme appartient cette séquence ?
cette séquence est-elle codante ?
quelle est le numéro d'accession de cette protéine, de l'ARNm, du gène ?
quelle est la fonction putative de cette protéine ?