Tutorial Annotation des Génomes

Introduction

Le tutorial s'organise autour de l'analyse d'un fragment de séquence issu du génome de B. subtilis ATCC 6633. Le séquençage de ce fragment est dans sa phase d'achèvement et on se propose de le vérifier et de faire son annotation à l'aide d'outils informatiques. L'analyse va donc se faire en différentes étapes successives. L'ordre dans lequel s'enchaîne les différentes méthodes n'est pas nécessairement celui qui est généralement adopté lors de l'analyse de cas réels; il répond aux contraintes d'un tutorial. Nous allons adopter la stratégie suivante:

Matériel

Le matériel mis à votre disposition est une séquence de B. subtilis ATCC 6633 que vous trouverez ici.

Recherche des gènes codant pour des protéines

Classiquement, chez les prokaryotes, la prédiction des gènes codant pour des protéines (CDS) débute par la recherche de phases ouvertes de lecture. Chez B. subtilis les codons AUG, GUG et UUG peuvent être utilisés comme initiateurs de la traduction, mais avec des fréquences décroissantes (AUG: 78%, TTG: 13% et TTG 9%).
Les outils les plus simples, de prédiction des gènes codant pour des protéines, recherchent les "Open reading Frames", dans ce registre ORF Finder du NCBI est un des plus réussi. Néanmoins, cette approche peut s'avérer insuffisante et il est préférable d'utiliser des outils un peu plus sophistiqués. Une méthode statistique largement employée dans la cas ou l'usage du code de la séquence étudiée est déjà connu est le programme GeneMark.
 

Exercice 1: Appelez le formulaire de soumission d'ORF Finder , et copiez/collez votre séquence dans la fenêtre. Vous pouvez choisir de faire ressortir les codons Met et les Stop (option: SixFrames). Orf Finder recherche les ORFs dans les 6 phases de lecture. Vous pouvez changer la taille minimum des ORF. A la suite de ces différentes manipulations, proposer un premier découpage de la séquence en CDS.

Exercice 2: Consultez le petit topo sur GeneMark et testez le programme sur votre séquence, en choisissant correctement votre organisme, en modifiant le paramètre "window size" à 120 pb au lieu de 96 et en demandant de voir aussi la liste des régions d'intérêt. Pour obtenir la sortie graphique cochez "Generate PDF graphics (screen)". Vous trouverez aussi le résultat graphique ici . Analyser les résultats et comparer avec ceux obtenus par ORF Finder. Faire seulement l'analyse du brin direct. Refaire l'analyse en modifiant le seuil (threshold) à 0.4. Remarques? Conclusion?


La principale difficulté demeure la localisation des codons initiateurs des régions codantes. Chez les prokaryotes, l'initiation de la traduction se fait après association du ribosome avec une région contenant un site de fixation pour la petite sous unité du ribosome. Cette région (Ribosome Binding Site ou RBS) renferme une séquence complémentaire de l'extrémité 5' de l'ARN 16S (le Shine-Dalgarno: 5'-AAGGAGGTG-3'). Cette séquence contient généralement le motif GGAGG situé à 6 ou 11 bases du codon initiateur (des distances plus grandes ou plus petites ont été observées). La région ne doit pas renfermer de structure secondaire stable.



Exercice 3:Il est possible de représenter graphiquement le contenu en information (la force) d'un signal. Un fichier avec 100 régions correspondant aux 33 premières bases de CDS de B. subtilis est disponible ici. Utiliser le programme weblogo avec les 100 séquences de B. subtilis. Commenter le résultat.

En utilisant Scan_For_Matches, il est possible de rechercher ce type de motif dans vos séquences. La syntaxe de ce programme est expliquée ici.  Le plus simple est de télécharger le programme et de l'installer sur votre compte. Le programme est disponible sur ce site.  Vous y trouverez aussi les instructions pour son installation. Après décompression et extraction des fichiers de l'archive :

To get started, you will need to compile the program.

        gcc -O -o scan_for_matches  ggpunit.c scan_for_matches.c
Once you have compiled scan_for_matches, you can verify that it works with
        clone% run_tests tmp
clone% diff tmp test_output

To run the program, you type need to create two files

  1. the first file contains the pattern you wish to scan for; we'll call this file pat_file in what follows (but any name is ok)
  2. the second file contains a set of sequences to scan. These should be in FASTA format.

Once these files have been created, you just use

scan_for_matches pat_file < input_file

Si des problèmes sont rencontrés à l'installation, vous pouvez utiliser la version de Scan_For_Matches installée sur notre serveur au travers de Mobyle ou bien  sur le serveur de l'institut Pasteur.  Dans la page de soumission, vous collerez la séquence du fragment génomique de B. subtilis et vous donnerez les patterns recherchés.
  • recherchez dans votre séquence,le motif suivant : GGAGG espace de 5 à 12 pb (AGT)TG.
  • recherchez ce même motif mais en relaxant les contraintes et en acceptant des séquences ayant une base de différence au niveau du GGAGG.
  • refaire une recherche en utilisant,à la place du motif consensus GGAGG,la matrice consensus suivante, établie sur un ensemble de séquences connues et représentant mieux la variation que l'on peut avoir à chaque position du motif.

    A C G T
    -23 -53 20 -33
    -22 -34 20 -46
    14 -46 -7 -15
    -27 -52 19 -17
    -4 -17 14 -10

    La syntaxe de Scan_For_Matches pour l'utilisation d'une matrice est la suivante:
    {(-23, -53, 20, -33), (-22, -34, 20, -46), (14, -46, -7, -15), (-27, -52, 19, -17), (-4, -17, 14, -10)} > valeur seuil. Essayer un seuil de 44. 
  • comparez l'ensemble des résultats. Conclusion?


Recherche des unités de transcription

Les gènes des prokaryotes sont généralement regroupés en unités de transcription. Au niveau de la séquence primaire, une unité de transcription est définit par un promoteur et un terminateur de transcription. Chez B. subtilis, pour la majorité des gènes l'initiation de la transcription fait intervenir le facteur sigma A qui reconnait une séquence spécifique au niveau du promoteur. De même chez B. subtilis, la terminaison de la transcription se fait généralement au niveau de terminateurs rho-indépendants.


Recherche des promoteurs de type sigma A
Vous trouverez dans le document ci joint des indications supplémentaires sur la caractérisation de ces sites et un rappel sur les différentes façon de représenter un motif.


Exercice 4: Rechercher avec Scan_For_Matches chacune des représentations du motif qui vous est proposée. Pour la représentation sous forme de matrice, testez seulement la dernière (la log odd matrice). Conclure sur les résultats.


Recherche des terminateurs de type rho-indépendants

Le modèle pour le mécanisme de terminaison de la transcription des terminateurs rho indépendants repose sur la formation d'une tige boucle en amont d'une région riche en U. Il a été montré ( d'Aubenton Carafa, Brody, and Thermes, 1990) que l'on devait distinguer deux classes de terminateurs:

Exercice 5:Rechercher avec Scan_For_Matches les terminateurs.
Nous recherchons ici des structures secondaires d'ARN, il est donc nécessaire de prendre en compte les appariements de type GU et UG. Cela se fait dans Scan_For_Matches en déclarant explicitement ces paires:
r1={AU,UA,GC,CG,GU,UG,GA,AG}

Pour la recherche d'appariements, utilisez la syntaxe : p1 ~p1, où ~p1 est le reverse complément de p1. Exemple :

p1 = 3...5 p2 = 3...10 3...9 r1~p2 ~p1 TT TTTT[1,0,0]

Expliquer ce que recherche cette expresion. Appliquer ce motif sur votre séquence.


Synthèse des résultats

Vous pouvez maintenant faire la synthèse des résultats obtenus avec les différentes méthodes de prédiction et proposer un découpage de la séquence en unités de traductions et de transcriptions. Avant aller plus loin dans l'analyse, il est nécessaire de rechercher les fonctions des protéines codées par les gènes identifiés dans cette étape.

Prédiction fonctionnelle par similitude

Vous devez maintenant disposer d'une séquence annotée. Nous pouvons envisager de rechercher la fonction des protéines putatives. Pour cela, nous allons utiliser une approche par similarité.

Recherche dans les bases de données de séquences de protéines.

Différents logiciels ou familles de logiciels sont a notre disposition comme BLAST, FASTA, et BLITZ pour ne citer que les plus courants. Vous trouverez ces logiciels sur différents sites. Nous vous proposons ici d'utiliser le logiciel BLAST installé sur le serveur du NCBI. Pour simplifier l'analyse des résultats, la séquence a été découpée en ORF d'après les positions déterminées à l'étape précédente, et chacune d'entre-elles a été traduite. Vous trouverez ces séquences ici


Exercice 6: En utilisant le logiciel Blast du NCBI, prédire la fonction de vos séquences.
Ensuite, toujours sur ce serveur, choisir l'option Microbial Genomes dans Genomic Blast pages. Entrer alors le fragment nucléique entier de départ (BS09819). Choisir comme Database Protein, vous allez alors effectuer un blastx (traduction de votre sonde dans les six phases et comparaison avec une banque de séquences protéiques). Choisir ensuite dans la liste des génomes Lactococcus lactis subsp. lactis. Lancer votre blast. En examinant les résultats vous devriez comprendre pourquoi on vous a proposé d'utiliser l'approche BlastP. En effet, dans votre fragment, vous avez des gènes qui appartiennent à des familles multigéniques, d'où la complexité du résultat du BlastX. La recherche par BlastX est cependant souvent utilisée en complément de l'analyse par GeneMark pour déterminer le codon initiateur.

Prédiction fonctionnelle par détection de signatures

Localisation cellulaire des protéines

Recherche de peptide signal

Le système d'exportation des protéines le plus commun chez les prokaryotes nécessite la présence d'un peptide signal à l'extrémité N-terminale de la protéine à exporter. Cette séquence se caractérise par quelques résidus chargés positivement au début de la séquence, suivit par une région riche en résidus hydrophobes, et avec généralement un résidu Arg ou Val en -3 et un Arg en -2. Plusieurs méthodes ont été proposées pour prédire ces peptides, nous vous recommandons SignalP. Du fait de l'absence de périplasme chez B. subtilis, de nombreuses protéines sécrétées sont ancrées à la membrane. Ces lipo-protéines possèdent un signal peptide particulier,renfermant un résidu cystéine {PDOC00017}. La peptidase de type II reconnait ce peptide signal, le coupe juste avant la cystéine et ajoute un "glyceride-fatty acid lipid" à la protéine maturée.



Exercice 7: Recherchez si parmi les vos séquences, certaines pourraient être exportées. Utiliser SignalP,  bien choisir la catégorie de l'organisme

Recherche de fragments transmembranaires

Les protéines membranaires sont ancrées dans les membranes par des segments hydrophobes qui adoptent une structure en hélice alpha. Ces fragments transmembranaires ne présentent généralement pas de similitude de séquence. Il n'est donc pas possible de les identifier par homologie, par contre la présence de résidus hydrophobes capables d'adopter une structure en hélice alpha peut être détectée par différentes méthodes. Si la séquence à étudier n'est pas apparentée à d'autre protéines alors nous pouvons utiliser uniquement les propriétés intrinsèques de cette séquence. Par contre, si plusieurs séquences des banques de données présentent des homologies avec notre protéine, il est préférable d'utiliser une modélisation par alignement. Le programme TMpred de l'ISREC répond au premier problème et le programme PHDhtm de l'EMBL peut être utilisé pour le second.


Exercice 8: Recherchez si parmi les vos séquences, certaines pourraient être membranaires en utilisant TMpred .

faire un résumé de toutes les informations.