Création d'un HMM pour prédire les promoteurs de type sigmaA de Bacillus subtilis
Vous allez utiliser SHOW développé à l'INRA de
Jouy en Josas pour construire votre HMM. Pour cela il faut prendre
connaissance de sa syntaxe. Vous avez à votre disposition la documentation fournie avec le programme ainsi qu'un extrait commenté de cette syntaxe.
Une fois la modélisation du HMM et son implémentation
réalisée, il va falloir estimer les paramètres du
modèle (probabilités d'émission et de transition).
Pour cela un ensemble de séquence vous est fourni. Vous les
trouverez dans l'archive compressée ci-jointe. Chaque séquence se trouve dans un fichier individuel ayant l'extension .dna.
Vous ferez tourner l'étape d'estimation des probabilités
de transition et d'observation de votre modèle et ensuite la
prédiction en utilisant l'algorithme de Baum-Welch puis
l'algorithme de viterbi en utilisant SHOW que nous avons
installé sur notre serveur au travers de Mobyle. Pour cela, aller dans annotation, puis dans genes.
Pour estimer les probabilités choisir show_emfit. Charger votre
modèle. Vous obtiendrez plusieurs fichiers de résultats.
Celui contenant votre modèle avec les nouvelles
probabilités estimées se trouve dans la section Learn
model. Dans further analysis vous pouvez directement lancer la
prédiction sur vos séquences en lançant
show_viterbi.
Les résulats du viterbi sont donnés sequence par sequence
avec création pour chaque séquence d'un fichier .vit et
sous un format à découvrir. Vous pouvez récupérer l'ensemble des fichiers sous forme d'archive en allant dans download en
haut de la page.
Pour pouvoir estimer le pouvoir prédictif du modèle, il va falloir parser ces fichiers.
Le programme vous permettant de parser les résulats du viterbi vous est fourni ici.
Le code est à modifier pour donner le chemin correct de vos
fichiers. Pour simplifier on pourra mettre les fichiers séquence
.dna et les fichiers résultats .vit dans le même
répertoire. Ce programme peut être largement amélioré et généralisé.