Tutorial Annotation des Génomes
Introduction
Le tutorial s'organise autour de l'analyse d'un fragment
de séquence issu du génome de B.
subtilis ATCC 6633. Le séquençage de ce fragment est
dans sa phase d'achèvement et on se propose de le vérifier et
de faire son annotation à l'aide d'outils informatiques. L'analyse
va donc se faire en différentes étapes successives. L'ordre
dans lequel s'enchaîne les différentes méthodes n'est
pas nécessairement celui qui est généralement adopté
lors de l'analyse de cas réels; il répond aux contraintes
d'un tutorial. Nous allons adopter la stratégie suivante:
- Recherche des gènes susceptibles de coder pour des protéines.
- Modélisation de la structure en opérons.
- Prédiction fonctionnelle des produits des gènes.
Matériel
Le matériel mis à votre disposition est une
séquence de B. subtilis ATCC 6633 que vous trouverez ici.
Recherche des gènes codant pour des protéines
Classiquement, chez les prokaryotes, la prédiction
des gènes codant pour des protéines (CDS) débute par
la recherche de phases ouvertes de lecture. Chez
B. subtilis les codons
AUG, GUG et UUG peuvent être utilisés comme initiateurs de la
traduction, mais avec des fréquences décroissantes (AUG: 78%,
TTG: 13% et TTG 9%).
Les outils les plus simples, de prédiction des gènes codant
pour des protéines, recherchent les "Open reading Frames", dans ce
registre
ORF Finder du
NCBI est un des plus réussi. Néanmoins, cette approche peut
s'avérer insuffisante et il est préférable d'utiliser
des outils un peu plus sophistiqués. Une méthode statistique
largement employée dans la cas ou l'usage du code de la séquence
étudiée est déjà connu est le programme
GeneMark.
Exercice 1: Appelez
le formulaire de soumission d'ORF Finder , et copiez/collez
votre séquence dans la fenêtre. Vous pouvez choisir de faire
ressortir les codons Met et les Stop (option: SixFrames). Orf Finder
recherche les ORFs dans les 6 phases de lecture. Vous pouvez changer la taille
minimum des ORF. A la suite de ces différentes manipulations, proposer
un premier découpage de la séquence en CDS.
|
Exercice 2: Consultez le petit
topo
sur GeneMark et testez le programme sur votre séquence, en
choisissant correctement votre organisme, en modifiant le
paramètre "window size" à 120 pb au lieu de 96 et en
utilisant un seuil de 0.5 comme probabilité myenne d'être
codant. Pour obtenir la sortie graphique cochez "PDF". Vous trouverez aussi le résultat graphique ici
. Analyser les résultats et comparer avec ceux obtenus
par ORF Finder. Faire seulement l'analyse du brin direct. Refaire l'analyse
en modifiant le seuil (threshold) à 0.4 (résultat graphique) Remarques? Conclusion?
Faire l'analyse en utilisant GeneMark.hmm (résultat graphique)
Comparer les 3 résultats. Conclusion.
|
La principale difficulté demeure la localisation
des codons initiateurs des régions codantes. Chez les prokaryotes,
l'initiation de la traduction se fait après association du ribosome
avec une région contenant un site de fixation pour la petite sous unité
du ribosome. Cette région (Ribosome Binding Site ou RBS) renferme
une séquence complémentaire de l'extrémité 5'
de l'ARN 16S (le Shine-Dalgarno: 5'-AAGGAGGTG-3'). Cette séquence
contient généralement le motif GGAGG situé à
6 ou 11 bases du codon initiateur (des distances plus grandes ou plus petites
ont été observées). La région ne doit pas renfermer
de structure secondaire stable.
Exercice 3:Il est possible
de représenter graphiquement le contenu en information (la force) d'un
signal. Un fichier avec 100 régions correspondant aux 33 premières
bases de CDS de B. subtilis est disponible ici. Utiliser le programme weblogo avec
les 100 séquences de B. subtilis. Commenter le résultat.
En utilisant Scan_For_Matches, il est possible de rechercher ce type de motif dans
vos séquences. La syntaxe de ce programme est expliquée ici.
Le plus simple est de télécharger le programme et de
l'installer sur votre compte. Le programme est disponible sur ce site ou si le site ne répond pas ici.
Vous y trouverez aussi les instructions pour son installation. Si
l'archive a été enregistrée dans le dossier Téléchargements, le déplacer dans un autre répertoire. Par exemple, sous Documents créer un répertoire Software de la façon suivante:
Se mettre dans Documents : cd Documents
Créer le répertoire : mkdir Softwares
Déplacer le fichier de scan_for_matches.tgz de Téléchargements dans Softwares :
mv ../../Téléchargements/scan_for_matches.tgz .
Pour decrompresser le fichier faire: gzip -d nom du fichier (dans notre cas le nom est :scan_for_matches.tgz)
Pour extraire les fichiers de l'archive : tar -xvf nom du fichier (dans notre cas le nom est :scan_for_matches.tar)
To get started, you will need to compile the program.
gcc -O -o scan_for_matches ggpunit.c scan_for_matches.c
Once you have compiled scan_for_matches, you can verify that it works with
clone% run_tests tmp clone% diff tmp test_output
To run the program, you type need to create two files
- the first file contains the pattern you wish to scan for; we'll
call this file pat_file in what follows (but any name is ok)
- the second file contains a set of sequences to scan. These should be in FASTA format.
Once these files have been created, you just use
scan_for_matches pat_file < input_file > output_file
- recherchez dans votre séquence,le motif suivant :
GGAGG espace de 5 à 12 pb (AGT)TG.
- recherchez ce même motif mais en relaxant les contraintes et
en acceptant des séquences ayant une base de différence au niveau
du GGAGG.
- refaire une recherche en utilisant,à la place du motif consensus
GGAGG,la matrice consensus suivante, établie sur un ensemble de séquences
connues et représentant mieux la variation que l'on peut avoir à
chaque position du motif.
A |
C |
G |
T |
-23 |
-53 |
20 |
-33 |
-22 |
-34 |
20 |
-46 |
14 |
-46 |
-7 |
-15 |
-27 |
-52 |
19 |
-17 |
-4 |
-17 |
14 |
-10 |
La syntaxe de Scan_For_Matches pour l'utilisation d'une matrice est la suivante:
{(-23, -53, 20, -33), (-22, -34, 20, -46), (14, -46, -7, -15), (-27, -52,
19, -17), (-4, -17, 14, -10)} > valeur seuil. Essayer un seuil de 44.
- comparez l'ensemble des résultats. Conclusion?
|
Recherche des
unités de transcription
Les gènes des prokaryotes sont généralement
regroupés en unités de transcription. Au niveau de la séquence
primaire, une unité de transcription est définit par un promoteur
et un terminateur de transcription. Chez B. subtilis, pour la majorité
des gènes l'initiation de la transcription fait intervenir le facteur
sigma A qui reconnait une séquence spécifique au niveau du
promoteur. De même chez B. subtilis, la terminaison de la transcription
se fait généralement au niveau de terminateurs rho-indépendants.
Recherche des promoteurs de
type sigma A
Vous trouverez dans le
document
ci joint des indications supplémentaires sur la caractérisation
de ces sites et un rappel sur les différentes façon de représenter
un motif.
Exercice 4: Rechercher
avec Scan_For_Matches chacune des représentations du motif qui vous
est proposée. Pour la représentation sous forme de matrice,
testez seulement la dernière (la log odd matrice). Conclure sur
les résultats.
|
Recherche des terminateurs de
type rho-indépendants
Le modèle pour le mécanisme de terminaison
de la transcription des terminateurs rho indépendants repose sur la
formation d'une tige boucle en amont d'une région riche en U. Il a
été montré ( d'Aubenton
Carafa, Brody, and Thermes, 1990) que l'on devait distinguer deux classes
de terminateurs:
- les terminateurs constitués d'une petite tige de 5 à
7 pb très stable et d'une boucle de 4 pb suivit d'une région
riche en U.
- Les terminateurs constitués d'une longue tige qui peut se
décomposer en deux tiges imbriquées l'une dans l'autre. La
première plus stable doit faire au moins 3 pb de long avec un appariement
GC à son pied. La seconde est incluse dans la première et comporte
au moins 3 appariements. Elle est généralement moins stable
que la première. La boucle est de 3 à 7 pb de long.
Exercice 5:Rechercher
avec Scan_For_Matches les terminateurs.
Nous recherchons ici des structures secondaires d'ARN, il est donc
nécessaire de prendre en compte les appariements de type GU et UG. Cela
se fait dans Scan_For_Matches en déclarant explicitement ces paires:
r1={AU,UA,GC,CG,GU,UG,GA,AG}
Pour la recherche d'appariements, utilisez la syntaxe : p1 ~p1,
où ~p1 est le reverse complément de p1. Exemple :
p1 = 3...5 p2 = 3...10 3...9 r1~p2 ~p1 TT TTTT[1,0,0]
Expliquer ce que recherche cette expresion. Appliquer ce motif sur votre
séquence.
|
Synthèse
des résultats
Vous pouvez maintenant faire la synthèse
des résultats obtenus avec les différentes méthodes
de prédiction et proposer un découpage de la séquence
en unités de traductions et de transcriptions. Avant aller plus loin
dans l'analyse, il est nécessaire de rechercher les fonctions des
protéines codées par les gènes identifiés dans
cette étape.
Prédiction
fonctionnelle par similitude
Vous devez maintenant disposer d'une séquence annotée.
Nous pouvons envisager de rechercher la fonction des protéines putatives.
Pour cela, nous allons utiliser une approche par similarité.
Recherche dans les bases de données de séquences
de protéines.
Différents logiciels ou familles de logiciels
sont a notre disposition comme BLAST, FASTA, et BLITZ pour ne citer que les
plus courants. Vous trouverez ces logiciels sur différents sites. Nous
vous proposons ici d'utiliser le logiciel BLAST installé sur le serveur
du
NCBI. Pour simplifier l'analyse
des résultats, la séquence a été découpée
en ORF d'après les positions déterminées à l'étape
précédente, et chacune d'entre-elles a été traduite.
Vous trouverez ces séquences
ici
Exercice 6: En utilisant
le logiciel Blast du NCBI, prédire la fonction de vos séquences.
Ensuite, toujours sur ce serveur, utiliser le Blast Genomes en
choisissant Microbes. Entrer alors le fragment nucléique entier
de départ
(BS09819). Vous allez alors effectuer un
blastx (traduction de votre sonde dans les six phases et comparaison
avec
une banque de séquences protéiques). On niveau de la case
organism, entrez Lactococcus lactis subsp. lactis. Lancer votre blast.
En examinant les résultats vous devriez comprendre pourquoi on vous
a proposé d'utiliser l'approche BlastP. En effet, dans votre fragment,
vous avez des gènes qui appartiennent à des familles multigéniques,
d'où la complexité du résultat du BlastX. La recherche
par BlastX est cependant souvent utilisée en complément de
l'analyse par GeneMark pour déterminer le codon initiateur.
|
Prédiction
fonctionnelle par détection de signatures
Localisation cellulaire des protéines
Recherche de peptide signal
Le système d'exportation des protéines
le plus commun chez les prokaryotes nécessite la présence d'un
peptide signal à l'extrémité N-terminale de la protéine
à exporter. Cette séquence se caractérise par quelques
résidus chargés positivement au début de la séquence,
suivit par une région riche en résidus hydrophobes, et avec
généralement un résidu Arg ou Val en -3 et un Arg en
-2. Plusieurs méthodes ont été proposées pour
prédire ces peptides, nous vous recommandons
SignalP. Du fait de l'absence
de périplasme chez
B. subtilis, de nombreuses protéines
sécrétées sont ancrées à la membrane. Ces
lipo-protéines possèdent un signal peptide particulier,renfermant
un résidu cystéine
{PDOC00017}.
La peptidase de type II reconnait ce peptide signal, le coupe juste avant
la cystéine et ajoute un "glyceride-fatty acid lipid" à la
protéine maturée.
Exercice 7: Recherchez si
parmi les vos séquences, certaines pourraient être exportées.
Utiliser SignalP,
bien choisir la catégorie de l'organisme
|
Recherche de fragments transmembranaires
Les protéines membranaires sont ancrées
dans les membranes par des segments hydrophobes qui adoptent une structure
en hélice alpha. Ces fragments transmembranaires ne présentent
généralement pas de similitude de séquence. Il n'est
donc pas possible de les identifier par homologie, par contre la présence
de résidus hydrophobes capables d'adopter une structure en hélice
alpha peut être détectée par différentes méthodes.
Si la séquence à étudier n'est pas apparentée
à d'autre protéines alors nous pouvons utiliser uniquement
les propriétés intrinsèques de cette séquence.
Par contre, si plusieurs séquences des banques de données présentent
des homologies avec notre protéine, il est préférable
d'utiliser une modélisation par alignement. Le programme
TMpred de
l'ISREC répond au premier problème et le programme PHDhtm de
l'EMBL peut être utilisé pour le second.
Exercice 8: Recherchez si
parmi les vos séquences, certaines pourraient être membranaires
en utilisant TMpred .
|
faire un résumé
de toutes les informations.