Tutorial Annotation des Génomes
Introduction
Le tutorial s'organise autour de l'analyse d'un fragment
de séquence issu du génome de B.
subtilis ATCC 6633. Le séquençage de ce fragment est
dans sa phase d'achèvement et on se propose de le vérifier et
de faire son annotation à l'aide d'outils informatiques. L'analyse
va donc se faire en différentes étapes successives. L'ordre
dans lequel s'enchaîne les différentes méthodes n'est
pas nécessairement celui qui est généralement adopté
lors de l'analyse de cas réels; il répond aux contraintes
d'un tutorial. Nous allons adopter la stratégie suivante:
- Recherche des gènes susceptibles de coder pour des protéines.
- Modélisation de la structure en opérons.
- Prédiction fonctionnelle des produits des gènes.
Matériel
Le matériel mis à votre disposition est une
séquence de B. subtilis ATCC 6633 que vous trouverez ici.
Recherche des gènes codant pour des protéines
Classiquement, chez les prokaryotes, la prédiction
des gènes codant pour des protéines (CDS) débute par
la recherche de phases ouvertes de lecture. Chez
B. subtilis les codons
AUG, GUG et UUG peuvent être utilisés comme initiateurs de la
traduction, mais avec des fréquences décroissantes (AUG: 78%,
TTG: 13% et TTG 9%).
Les outils les plus simples, de prédiction des gènes codant
pour des protéines, recherchent les "Open reading Frames", dans ce
registre
ORF Finder du
NCBI est un des plus réussi. Néanmoins, cette approche peut
s'avérer insuffisante et il est préférable d'utiliser
des outils un peu plus sophistiqués. Une méthode statistique
largement employée dans la cas ou l'usage du code de la séquence
étudiée est déjà connu est le programme
GeneMark.
Exercice 1: Appelez
le formulaire de soumission d'ORF Finder , et copiez/collez
votre séquence dans la fenêtre. Orf Finder
recherche les ORFs dans les 6 phases de lecture. Vous pouvez changer la taille
minimum des ORF. Pour
la suite de l'annotation nous conserverons les ORF de taille >=
à 300 pb. A la suite de ces différentes manipulations,
proposer un premier découpage de la séquence en CDS
potentielles.
|
Exercice 2: Consultez le petit
topo
sur GeneMark et testez le programme sur votre séquence, en
choisissant correctement votre organisme, en modifiant le
paramètre "window size" à 120 pb au lieu de 96 et en
utilisant un seuil de 0.5 comme probabilité moyenne d'être
codant. Pour obtenir la sortie graphique, cochez "PDF". Analyser les résultats et comparer avec ceux obtenus
par ORF Finder. Faire seulement l'analyse du brin direct. Refaire l'analyse
en modifiant le seuil (threshold) à 0.4 Remarques? Conclusion?
nb
: dans le cadre du TP, nous ne faisons que l'analyse du brin direct
pour des raisons de temps. Quand nous réalisons une annotation
d'un génome, les deux brins sont analysés.
Faire l'analyse en utilisant GeneMark.hmm.
Comparer les 3 résultats. Conclusion.
|
La principale difficulté demeure la localisation
des codons initiateurs des régions codantes. Chez les prokaryotes,
l'initiation de la traduction se fait après association du ribosome
avec une région contenant un site de fixation pour la petite sous unité
du ribosome. Cette région (Ribosome Binding Site ou RBS) renferme
une séquence complémentaire de l'extrémité 5'
de l'ARN 16S (le Shine-Dalgarno: 5'-AAGGAGGTG-3'). Cette séquence
contient généralement le motif GGAGG situé à
6 ou 11 bases du codon initiateur (des distances plus grandes ou plus petites
ont été observées). La région ne doit pas renfermer
de structure secondaire stable.
Exercice 3 : Il est possible
de représenter graphiquement le contenu en information (la force) d'un
signal. Un fichier avec 100 régions correspondant aux 33 premières
bases de CDS de B. subtilis est disponible ici. Utiliser le programme weblogo avec
les 100 séquences de B. subtilis. Commenter le résultat.
En utilisant Scan_For_Matches, il est possible de rechercher ce type de motif dans
vos séquences. La syntaxe de ce programme est expliquée ici.
Le plus simple est de télécharger le programme et de
l'installer sur votre compte. Le programme est disponible sur ce site ou si le site ne répond pas ici.
Vous y trouverez aussi les instructions pour son installation. Si
l'archive a été enregistrée dans le dossier Téléchargements, le déplacer dans un autre répertoire. Par exemple, sous Documents créer un répertoire Software de la façon suivante:
Se mettre dans Documents : cd Documents
Créer le répertoire : mkdir Softwares
Déplacer le fichier de scan_for_matches.tgz de Téléchargements dans Softwares :
mv ../../Téléchargements/scan_for_matches.tgz
Pour decrompresser le fichier faire: gzip -d nom du fichier (dans notre cas le nom est scan_for_matches.tgz)
Pour extraire les fichiers de l'archive : tar -xvf nom du fichier (dans notre cas le nom est scan_for_matches.tar)
To get started, you will need to compile the program.
gcc -O -o scan_for_matches ggpunit.c scan_for_matches.c
Once you have compiled scan_for_matches, you can verify that it works with
(clone%
correspond à l'invite de l'ordinateur c'est à dire ce qui
apparaît sur votre écran dans l'attente de la commande.
Donc ne fait pas partie de la commande à taper)
clone% ./run_tests tmp (./ indique que le programme run_test est celui qui est dans le répertoire courant) clone% diff tmp test_output (diff est une commande Linux)
To run the program, you type need to create two files
- the first file contains the pattern you wish to scan for; we'll
call this file pat_file in what follows (but any name is ok)
- the second file contains a set of sequences to scan. These should be in FASTA format.
Once these files have been created, you just use
./scan_for_matches pat_file < input_file > output_file
(./ idem desssus si vous êtes dans le même
répertoire que le
programme)
- recherchez dans votre séquence,le motif suivant :
GGAGG espace de 5 à 12 pb (AGT)TG.
- recherchez ce même motif mais en relaxant les contraintes et
en acceptant des séquences ayant une base de différence au niveau
du GGAGG.
- refaire une recherche en utilisant,à la place du motif consensus
GGAGG,la matrice consensus suivante, établie sur un ensemble de séquences
connues et représentant mieux la variation que l'on peut avoir à
chaque position du motif.
A |
C |
G |
T |
-23 |
-53 |
20 |
-33 |
-22 |
-34 |
20 |
-46 |
14 |
-46 |
-7 |
-15 |
-27 |
-52 |
19 |
-17 |
-4 |
-17 |
14 |
-10 |
La syntaxe de Scan_For_Matches pour l'utilisation d'une matrice est la suivante:
{(-23, -53, 20, -33), (-22, -34, 20, -46), (14, -46, -7, -15), (-27, -52,
19, -17), (-4, -17, 14, -10)} > valeur seuil. Essayer un seuil de 44.
- comparez l'ensemble des résultats. Conclusion?
|
Recherche des
unités de transcription
Les gènes des prokaryotes sont généralement
regroupés en unités de transcription. Au niveau de la séquence
primaire, une unité de transcription est définit par un promoteur
et un terminateur de transcription. Chez B. subtilis, pour la majorité
des gènes l'initiation de la transcription fait intervenir le facteur
sigma A qui reconnait une séquence spécifique au niveau du
promoteur. De même chez B. subtilis, la terminaison de la transcription
se fait généralement au niveau de terminateurs rho-indépendants.
Recherche des promoteurs de
type sigma A
Vous trouverez dans le
document
ci joint des indications supplémentaires sur la caractérisation
de ces sites et un rappel sur les différentes façon de représenter
un motif. Plusieurs types de recherche vous sont proposés. Faire en priorité :
- recherche séquence consensus
- recheche avec la matrice déduite de l' Indice dérivé du contenu en information
Exercice 4:
Rechercher
avec Scan_For_Matches chacune des représentations du motif qui
vous
est proposée. Pour la représentation sous forme de
matrice,
testez seulement la dernière (la log odd matrice dans le
chapitre Indice dérivé du contenu en information). Conclure sur
les résultats.
|
Recherche des terminateurs de
type rho-indépendants
Le modèle pour le mécanisme de terminaison
de la transcription des terminateurs rho indépendants repose sur la
formation d'une tige boucle en amont d'une région riche en U. Il a
été montré ( d'Aubenton
Carafa, Brody, and Thermes, 1990) que l'on devait distinguer deux classes
de terminateurs:
- les terminateurs constitués d'une petite tige de 5 à
7 pb très stable et d'une boucle de 4 pb suivit d'une région
riche en U.
- Les terminateurs constitués d'une longue tige qui peut se
décomposer en deux tiges imbriquées l'une dans l'autre. La
première plus stable doit faire au moins 3 pb de long avec un appariement
GC à son pied. La seconde est incluse dans la première et comporte
au moins 3 appariements. Elle est généralement moins stable
que la première. La boucle est de 3 à 7 pb de long.
Exercice 5 : Rechercher
avec Scan_For_Matches les terminateurs.
Nous recherchons ici des structures secondaires d'ARN, il est donc
nécessaire de prendre en compte les appariements de type GU et UG. Cela
se fait dans Scan_For_Matches en déclarant explicitement ces paires:
r1={AU,UA,GC,CG,GU,UG,GA,AG}
Pour la recherche d'appariements, utilisez la syntaxe : p1 ~p1,
où ~p1 est le reverse complément de p1. Exemple :
p1 = 3...5 p2 = 3...10 3...9 r1~p2 ~p1 TT TTTT[1,0,0]
Expliquer ce que recherche cette expresion. Appliquer ce motif sur votre
séquence.
|
Synthèse
des résultats
Vous pouvez maintenant faire la synthèse
des résultats obtenus avec les différentes méthodes
de prédiction et proposer un découpage de la séquence
en unités de traductions et de transcriptions. Avant aller plus loin
dans l'analyse, il est nécessaire de rechercher les fonctions des
protéines codées par les gènes identifiés dans
cette étape.
Prédiction
fonctionnelle par similitude
Vous devez maintenant disposer d'une séquence annotée.
Nous pouvons envisager de rechercher la fonction des protéines putatives.
Pour cela, nous allons utiliser une approche par similarité.
Recherche dans les bases de données de séquences
de protéines.
Différents logiciels ou familles de logiciels
sont a notre disposition comme BLAST, FASTA, et BLITZ pour ne citer que les
plus courants. Vous trouverez ces logiciels sur différents sites. Nous
vous proposons ici d'utiliser le logiciel BLAST installé sur le serveur
du
NCBI. Pour simplifier l'analyse
des résultats, la séquence a été découpée
en CDS d'après les positions déterminées à l'étape
précédente, et chacune d'entre-elles a été traduite (utilisation de la suite EMBOSS).
Vous trouverez ces séquences
ici
Exercice 6 : En utilisant la suite logiciel Blast du NCBI, prédire la fonction de vos séquences.
Dans un premier temps vous utiliserez une recherche avec le
logiciel BlastP en utilisant comme query les séquences
protéiques déduites de l'annotation
précédente.
Ensuite, toujours sur ce serveur, utiliser le Blast Genomes en
choisissant Microbes. Entrer alors le fragment nucléique entier
de départ
(BS09819). Vous allez alors effectuer un
blastx (traduction de votre sonde dans les six phases et comparaison
avec
une banque de séquences protéiques). On niveau de la case
organism, entrez Lactococcus lactis subsp. lactis. Lancer votre blast.
En examinant les résultats vous devriez comprendre pourquoi on vous
a proposé d'utiliser l'approche BlastP. En effet, dans votre fragment,
vous avez des gènes qui appartiennent à des familles multigéniques,
d'où la complexité du résultat du BlastX. La recherche
par BlastX est cependant le plus souvent utilisée en complément de
l'analyse par un prédicteur de gènes.
|
Prédiction
fonctionnelle par détection de signatures
Localisation cellulaire des protéines
Recherche de peptide signal
Le système d'exportation des protéines
le plus commun chez les prokaryotes nécessite la présence d'un
peptide signal à l'extrémité N-terminale de la protéine
à exporter. Cette séquence se caractérise par quelques
résidus chargés positivement au début de la séquence,
suivit par une région riche en résidus hydrophobes, et avec
généralement un résidu Arg ou Val en -3 et un Arg en
-2. Plusieurs méthodes ont été proposées pour
prédire ces peptides, nous vous recommandons
SignalP. Du fait de l'absence
de périplasme chez
B. subtilis, de nombreuses protéines
sécrétées sont ancrées à la membrane. Ces
lipo-protéines possèdent un signal peptide particulier,renfermant
un résidu cystéine
{PDOC00017}.
La peptidase de type II reconnait ce peptide signal, le coupe juste avant
la cystéine et ajoute un "glyceride-fatty acid lipid" à la
protéine maturée.
Exercice 7 : Recherchez si
parmi les vos séquences, certaines pourraient être exportées.
Utiliser SignalP,
bien choisir la catégorie de l'organisme
|
Recherche de fragments transmembranaires
Les protéines membranaires sont
ancrées dans les membranes par des segments hydrophobes qui
adoptent une structure en hélice alpha. Ces fragments
transmembranaires ne présentent généralement pas
de similitude de séquence. Il n'est donc pas possible de les
identifier par homologie, par contre la présence de
résidus hydrophobes capables d'adopter une structure en
hélice alpha peut être détectée par
différentes méthodes. Nous allons utiliser une
évolution récente de la méthode THMM, basée
à l'origine su r un modèle de Markov caché, qui
utilise maintenant une approche d'apprentissage profond (deep learning)
et qui a été renommée DeepTHMM.
Exercice 8 : Recherchez si
parmi les vos séquences, certaines pourraient être membranaires
en utilisant DeppTHMM .
|
faire un résumé
de toutes les informations.