TP Initiation Bioanalyse

From silico.biotoul.fr

Revision as of 10:14, 6 December 2016 by Gaulin (Talk | contribs)

(diff) ← Older revision | Current revision (diff) | Newer revision → (diff)

1 Objectifs
2 Exercice 1 : Recherche dans les banques via l'utilisation de mots clés
3 Exercice 2 : Recherche dans les banques via le numéro d'accession d'une séquence
4 Exercice 3 : Recherche dans les banques via une séquence (protéique ou nucléique): l'outil BLAST
5 Exercice 4 : Recherche dans des banques de données spécialisées, l'exemple des banques de familles et de domaines protéiques
6 Exercice 5 : Comparaison de séquences

Objectifs

Ce TD a pour but de vous présenter quelques outils utilisés en bioanalyse et vous familiariser avec la recherche d'informations scientifiques disponibles dans les banques de données biologiques (Database)

Globalement les informations sont regroupées dans 2 centres :

NCBI National Center for Biotechnology Information (NIH, USA)
EBI European Bioinformatics Institute (EMBL, GB)

Nous utiliserons également la suite de logiciels dédiée à l'analyse de séquences biologiques EMBOSS, mise à disposition par la Genopole de Toulouse.

Exercice 1 : Recherche dans les banques via l'utilisation de mots clés

Sur le serveur du NCBI, identifiez:

toutes les séquences de l'oomycète Phytophthora (parasite de la pomme de terre), combien sont-elles ?
les séquences protéiques de Phytophthora parasitica pouvant interagir avec la cellulose

Pour cela sur le site du NCBI sélectionnez les banques "protéines", puis dans la barre de requête il est possible de combiner plusieurs termes à l'aide des opérateurs booléens (AND, OR, NOT) puis l'option Advanced (sous la barre de requête) et le bouton Preview, en précisant les champs, Organism, Title... à l'aide de l'outil Search builder et conjuguer vos requêtes. L'historique de vos requêtes est visible.

On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843

Regardez la fiche de la séquence correspondante :

comment s'organise cette fiche ? (format GenPept)
quel est le nom de cette protéine ?
quel le nombre d'acides aminés constituant cette protéine ?
dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
sous quel numéro cette publication est-elle référencée dans PubMed ?

On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche

à quoi correspondent les différents liens croisées :

- db_xref="InterPro:IPR000177"

- db_xref="GOA:O42830"

- db_xref="UniProtKB/TrEMBL:O42830

quels domaines protéiques sont présents dans la protéine ?
quel est la fonction du domaine "IPR00254" ?

Exercice 2 : Recherche dans les banques via le numéro d'accession d'une séquence

Les séquences dans les banques de données sont répertoriées avec 'un numero d'accession', unique et propre à la séquence (genomique, protéique..)

Récupérez la séquence P07987

de quelle type de séquence s'agit-il ?
à quel organisme appartient-elle ?
quelle est la fonction de P07987 ?
dans quelle banque cette séquence est-elle déposée ?
afficher la séquence au format fasta
indiquez les positions du domaine CBM1

Récupérez la fiche du gène humain dans la base de données Gene du NCBI référencée sous le numéro d'accession 596

sur quel chromosome est présent le locus ?
ce gène présente-t-il des variants ?
ce gène est-il traduit ? quel est le numéro d'accession des protéines correspondantes ?
le produit du gène est-il capable d'interagir avec d'autres protéines ?

Exercice 3 : Recherche dans les banques via une séquence (protéique ou nucléique): l'outil BLAST

Ci-dessous une séquence protéique inconnue au format FASTA

>sequence_proteique_inconnue
HAILRLDLAGRDLTDHAMKILTERGYSFTTTAEREI VRDMKEKASYIALDYEQELETSKTAAAVEKSFELPDGQVITIGAERFRCPEVLFQPSMIGMENPGIHETT YNSIMKCDVDIRKDLYGNIVLSGGTTMFGGLGDRMSKEITALAPSSMKIKVVAPPERKYSVWIGGSIAAS LSTFQQMWIAKLEYDESGPSIVHRKCF

afin de savoir si cette séquence est répertoriée dans les bases de données faites un Blast au NCBI
quel type de 'Blast' choisissez-vous ?
a quoi correspond la E-value ?
qu'indique les signe '+' et ' ' dans l'alignement ?
cette séquence présente-elle des similarités avec d'autres séquences répertoriées dans les bases de données ?

Ci-dessous une séquence nucléique inconnue au format FASTA

>sequence_nucleique_inconnue

GGCAACTTCAACTGGGGCCGGGTGGTTGCCCTTTTCTACTTTGCTAGCAAACTGGTGCTCAAGGCCCTGTGCACTAAAGTGCCCGAGCTGATCAG AACCATCATGGGCTGGACACTGGACTTCCTCCGGGAGCGGCTGCTTGTCTGGATCCAAGACCAGGGTGGC TGGGATGGCCTCCTTTCCTACTTCGGGACCCCCACATGGCAGACAGTGACCATCTTTGTGGCTGGAGTCC TCACTGCCTCACTCACCATCTGGAAGAAGATGGGCTGAGGCTTCCTGCTGCCTTGGACTGTGTCTTTTCT TCATAAATTATGACATTTTTCCTGGGATGAATGGGGAACGGGGAAAGGCATTTTCCCCGTGAGGGCCGCACGTCTGCTCTTACTTTTGTAATT ATTGGGAGGGGTGGGAATGGTGGCCTGGGGGAGGTGCCAATAAACCTCAGGTCCA

quelle est la nature (ADN, ARN..) de votre séquence d'interet (query) ?
est-elle répertoriée dans les bases de données ?
a quoi correspond le '-' dans le premier alignement ?
regardez l'alignement entre votre séquence d'interet et la séquence rouge/gris/rose, qu'en pensez vous ?

Exercice 4 : Recherche dans des banques de données spécialisées, l'exemple des banques de familles et de domaines protéiques

Les banques de données peuvent être 'spécialisées' soit à un organisme (drosophile, arabidopsis...), soit à un type de séquences (nucléique, protéique..)... Ces banques peuvent être interrogées par 'mots clés', 'numéro d'accession' ou en utilisant une séquence, comme lors des exercices précédents.

Soit le numéro d'accession PF00173 issu de la banque de données PFAM

qu'est ce que PFAM ?
a quoi correspond le numéro d'accession PF00173 ?
chez combien d'espèces est-il rencontré ?
connait-on la structure 3D de ce domaine protéique ?
ce domaine est-il recensé dans d'autres banques de domaines protéiques ?

Récupérez la séquence NP_000624.2 au format FASTA

Interrogez InterProSCAN à l'EBI (aller dans Services => Proteins => InterProScan)

qu'est-ce que InterproSCAN ?
comparer les positions des domaines selon les banques. Pourquoi observez vous des variations ?
cette séquence contient-elle un domaine référence dans PFAM ? si oui quel est son numero d'accession ?

Récupérez la fiche du gène humain codant NP_000624.2 et référencé dans la base de données Gene du NCBI sous le numéro d'accession 596

sur quel chromosome est présent le locus ?
ce gène présente-t-il des variants ?
des interactants protéiques sont-ils connus pour NP_00624.2 ?

Exercice 5 : Comparaison de séquences

Différentes méthodes permettent de comparer des séquences, soit deux à deux (dot plot, alignement global, local..), soit de façon multiple (alignement multiple..) avec ou non une idée de la 'pertinence/significativité' de la comparaison.

Nous allons comparer les deux séquences : Xlev_Rhodop1 et Xlev_Rhodop2.seq

Dans un premier temps, réaliser un 'Dot Plot' (Matrice de Point) avec Dotpath disponible dans EMBOSS qui permet de dessiner une matrice de point avec une taille de mot fixée.

Avec les paramètres par défaut, comparer Rhodop1 et Rhodop2. Observez le résultat, que pouvez vous conclure ?

Dans un second temps, faites un alignement 'global' avec Stretcher disponible dans EMBOSS.

Que pensez vous de la significativite de cet alignement ? Que proposez-vous ?

Enfin, réalisez un alignement 'local' avec Mater disponible dans EMBOSS. Demandez 10 'Number of Alternatives Matches' dans les paramètres.

Combien d'alignements locaux attendez-vous ?