Tutorial de BioInformatique

Le tutorial s'organise autour de l'analyse d'un fragment de séquence issu du génome de B. subtilis ATCC 6633. Le séquençage de ce fragment est dans sa phase d'achèvement et on se propose de le vérifier et de faire son annotation à l'aide d'outils informatiques. L'analyse va donc se faire en différentes étapes successives. L'ordre dans lequel s'enchaîne les différentes méthodes n'est pas nécessairement celui qui est généralement adopté lors de l'analyse de cas réels; il répond aux contraintes d'un tutorial. Nous allons adopter la stratégie suivante:

Le matériel mis à votre disposition est une séquence de B. subtilis ATCC 6633 que vous trouverez ici.

Classiquement, chez les prokaryotes, la prédiction des gènes codant pour des protéines (CDS) débute par la recherche de phases ouvertes de lecture. Chez B. subtilis les codons AUG, GUG et UUG peuvent être utilisés comme initiateurs de la traduction, mais avec des fréquences décroissantes (AUG: 78%, TTG: 13% et TTG 9%).
Les outils les plus simples, de prédiction des gènes codant pour des protéines, recherchent les "Open reading Frames", dans ce registre ORF Finder du NCBI est un des plus réussi. Néanmoins, cette approche peut s'avérer insuffisante et il est préférable d'utiliser des outils un peu plus sophistiqués. Une méthode statistique largement employée dans la cas ou l'usage du code de la séquence étudiée est déjà connu est le programme GeneMark.

Exercice 1: Appelez le formulaire de soumission d'ORF Finder , et copiez/collez votre séquence dans la fenêtre. Orf Finder recherche les ORFs dans les 6 phases de lecture. Vous pouvez changer la taille minimum des ORF. Pour la suite de l'annotation nous conserverons les ORF de taille >= à 300 pb. A la suite de ces différentes manipulations, proposer un premier découpage de la séquence en CDS potentielles.

Exercice 2: Consultez le petit topo sur GeneMark et testez le programme sur votre séquence, en choisissant correctement votre organisme, en modifiant le paramètre "window size" à 120 pb au lieu de 96 et en utilisant un seuil de 0.5 comme probabilité moyenne d'être codant. Pour obtenir la sortie graphique, cochez "PDF". Analyser les résultats et comparer avec ceux obtenus par ORF Finder. Faire seulement l'analyse du brin direct. Refaire l'analyse en modifiant le seuil (threshold) à 0.4 Remarques? Conclusion?

nb : dans le cadre du TP, nous ne faisons que l'analyse du brin direct pour des raisons de temps. Quand nous réalisons une annotation d'un génome, les deux brins sont analysés.

Faire l'analyse en utilisant GeneMark.hmm.

Comparer les 3 résultats. Conclusion.

La principale difficulté demeure la localisation des codons initiateurs des régions codantes. Chez les prokaryotes, l'initiation de la traduction se fait après association du ribosome avec une région contenant un site de fixation pour la petite sous unité du ribosome. Cette région (Ribosome Binding Site ou RBS) renferme une séquence complémentaire de l'extrémité 5' de l'ARN 16S (le Shine-Dalgarno: 5'-AAGGAGGTG-3'). Cette séquence contient généralement le motif GGAGG situé à 6 ou 11 bases du codon initiateur (des distances plus grandes ou plus petites ont été observées). La région ne doit pas renfermer de structure secondaire stable.

Exercice 3 : Il est possible de représenter graphiquement le contenu en information (la force) d'un signal. Un fichier avec 100 régions correspondant aux 33 premières bases de CDS de B. subtilis est disponible ici. Utiliser le programme weblogo avec les 100 séquences de B. subtilis. Commenter le résultat.

En utilisant Scan_For_Matches, il est possible de rechercher ce type de motif dans vos séquences. La syntaxe de ce programme est expliquée ici. Le plus simple est de télécharger le programme et de l'installer sur votre compte. Le programme est disponible sur ce site ou si le site ne répond pas ici. Vous y trouverez aussi les instructions pour son installation. Si l'archive a été enregistrée dans le dossier Téléchargements, le déplacer dans un autre répertoire. Par exemple, sous Documents créer un répertoire Software de la façon suivante:
Se mettre dans Documents : cd Documents
Créer le répertoire : mkdir Softwares
Déplacer le fichier de scan_for_matches.tgz de Téléchargements dans Softwares :
mv ../../Téléchargements/scan_for_matches.tgz

Pour decrompresser le fichier faire: gzip -d nom du fichier (dans notre cas le nom est scan_for_matches.tgz)
Pour extraire les fichiers de l'archive : tar -xvf nom du fichier (dans notre cas le nom est scan_for_matches.tar)
To get started, you will need to compile the program.
        gcc -O -o scan_for_matches  ggpunit.c scan_for_matches.c
Once you have compiled scan_for_matches, you can verify that it works with
(clone% correspond à l'invite de l'ordinateur c'est à dire ce qui apparaît sur votre écran dans l'attente de la commande. Donc ne fait pas partie de la commande à taper)
        clone% ./run_tests tmp    (./ indique que le programme run_test est celui qui est dans le répertoire courant)
        clone% diff tmp test_output    (diff est une commande Linux)
 
To run the program, you type need to create two files

the first file contains the pattern you wish to scan for; we'll call this file pat_file in what follows (but any name is ok)

the second file contains a set of sequences to scan. These should be in FASTA format.

Once these files have been created, you just use

./scan_for_matches pat_file < input_file > output_file (./ idem desssus si vous êtes dans le même répertoire que le programme)

recherchez dans votre séquence,le motif suivant : GGAGG espace de 5 à 12 pb (AGT)TG.

recherchez ce même motif mais en relaxant les contraintes et en acceptant des séquences ayant une base de différence au niveau du GGAGG.

refaire une recherche en utilisant,à la place du motif consensus GGAGG,la matrice consensus suivante, établie sur un ensemble de séquences connues et représentant mieux la variation que l'on peut avoir à chaque position du motif.

A C G T

-23 -53 20 -33

-22 -34 20 -46

14 -46 -7 -15

-27 -52 19 -17

-4 -17 14 -10

La syntaxe de Scan_For_Matches pour l'utilisation d'une matrice est la suivante:
{(-23, -53, 20, -33), (-22, -34, 20, -46), (14, -46, -7, -15), (-27, -52, 19, -17), (-4, -17, 14, -10)} > valeur seuil. Essayer un seuil de 44.

comparez l'ensemble des résultats. Conclusion?

Les gènes des prokaryotes sont généralement regroupés en unités de transcription. Au niveau de la séquence primaire, une unité de transcription est définit par un promoteur et un terminateur de transcription. Chez B. subtilis, pour la majorité des gènes l'initiation de la transcription fait intervenir le facteur sigma A qui reconnait une séquence spécifique au niveau du promoteur. De même chez B. subtilis, la terminaison de la transcription se fait généralement au niveau de terminateurs rho-indépendants.

Vous trouverez dans le document ci joint des indications supplémentaires sur la caractérisation de ces sites et un rappel sur les différentes façon de représenter un motif. Plusieurs types de recherche vous sont proposés. Faire en priorité :

recherche séquence consensus
recheche avec la matrice déduite de l' Indice dérivé du contenu en information

Le modèle pour le mécanisme de terminaison de la transcription des terminateurs rho indépendants repose sur la formation d'une tige boucle en amont d'une région riche en U. Il a été montré ( d'Aubenton Carafa, Brody, and Thermes, 1990) que l'on devait distinguer deux classes de terminateurs:

les terminateurs constitués d'une petite tige de 5 à 7 pb très stable et d'une boucle de 4 pb suivit d'une région riche en U.
Les terminateurs constitués d'une longue tige qui peut se décomposer en deux tiges imbriquées l'une dans l'autre. La première plus stable doit faire au moins 3 pb de long avec un appariement GC à son pied. La seconde est incluse dans la première et comporte au moins 3 appariements. Elle est généralement moins stable que la première. La boucle est de 3 à 7 pb de long.

Vous pouvez maintenant faire la synthèse des résultats obtenus avec les différentes méthodes de prédiction et proposer un découpage de la séquence en unités de traductions et de transcriptions. Avant aller plus loin dans l'analyse, il est nécessaire de rechercher les fonctions des protéines codées par les gènes identifiés dans cette étape.

Vous devez maintenant disposer d'une séquence annotée. Nous pouvons envisager de rechercher la fonction des protéines putatives. Pour cela, nous allons utiliser une approche par similarité.

Différents logiciels ou familles de logiciels sont a notre disposition comme BLAST, FASTA, et BLITZ pour ne citer que les plus courants. Vous trouverez ces logiciels sur différents sites. Nous vous proposons ici d'utiliser le logiciel BLAST installé sur le serveur du NCBI. Pour simplifier l'analyse des résultats, la séquence a été découpée en CDS d'après les positions déterminées à l'étape précédente, et chacune d'entre-elles a été traduite (utilisation de la suite EMBOSS). Vous trouverez ces séquences ici

Exercice 6 : En utilisant la suite logiciel Blast du NCBI, prédire la fonction de vos séquences.
Dans un premier temps vous utiliserez une recherche avec le logiciel BlastP en utilisant comme query les séquences protéiques déduites de l'annotation précédente.
Ensuite, toujours sur ce serveur, utiliser le Blast Genomes en choisissant Microbes. Entrer alors le fragment nucléique entier de départ (BS09819). Vous allez alors effectuer un blastx (traduction de votre sonde dans les six phases et comparaison avec une banque de séquences protéiques). On niveau de la case organism, entrez Lactococcus lactis subsp. lactis. Lancer votre blast. En examinant les résultats vous devriez comprendre pourquoi on vous a proposé d'utiliser l'approche BlastP. En effet, dans votre fragment, vous avez des gènes qui appartiennent à des familles multigéniques, d'où la complexité du résultat du BlastX. La recherche par BlastX est cependant le plus souvent utilisée en complément de l'analyse par un prédicteur de gènes.

Le système d'exportation des protéines le plus commun chez les prokaryotes nécessite la présence d'un peptide signal à l'extrémité N-terminale de la protéine à exporter. Cette séquence se caractérise par quelques résidus chargés positivement au début de la séquence, suivit par une région riche en résidus hydrophobes, et avec généralement un résidu Arg ou Val en -3 et un Arg en -2. Plusieurs méthodes ont été proposées pour prédire ces peptides, nous vous recommandons SignalP. Du fait de l'absence de périplasme chez B. subtilis, de nombreuses protéines sécrétées sont ancrées à la membrane. Ces lipo-protéines possèdent un signal peptide particulier,renfermant un résidu cystéine {PDOC00017}. La peptidase de type II reconnait ce peptide signal, le coupe juste avant la cystéine et ajoute un "glyceride-fatty acid lipid" à la protéine maturée.

Exercice 7 : Recherchez si parmi les vos séquences, certaines pourraient être exportées. Utiliser SignalP, bien choisir la catégorie de l'organisme

Les protéines membranaires sont ancrées dans les membranes par des segments hydrophobes qui adoptent une structure en hélice alpha. Ces fragments transmembranaires ne présentent généralement pas de similitude de séquence. Il n'est donc pas possible de les identifier par homologie, par contre la présence de résidus hydrophobes capables d'adopter une structure en hélice alpha peut être détectée par différentes méthodes. Nous allons utiliser une évolution récente de la méthode THMM, basée à l'origine su r un modèle de Markov caché, qui utilise maintenant une approche d'apprentissage profond (deep learning) et qui a été renommée DeepTHMM.

Exercice 8 : Recherchez si parmi les vos séquences, certaines pourraient être membranaires en utilisant DeppTHMM .

Tutorial Annotation des Génomes