Introduction sur GeneMark
La méthode repose sur le modèle probabiliste suivant:
Hypothèse 1: La probabilité d'observer une base à une position donnée dépend: 1) des bases précédant cette position et, si la région est codante, 2) de sa localisation dans le codon. Ce qui peut être modéliser par un modèle de Markov homogène dans le cas des régions non-codantes et par un modèle de Markov non-homogène (dépendant de la phase) dans le cas des séquences codantes. L'ordre du modèle de Markov correspond au nombre de bases que l'on doit considérer en amont de la position donnée.
Hypothèse 2: Une région particulière ne peut être que dans un des 7 états suivant:
Les probabilités sont déterminées à partir d'une matrice calculée sur un ensemble de régions appartenant à l'un des 7 états possibles. L'ordre du modèle de Markov est laissé au choix de l'utilisateur (généralement 4 ou 5). Comme l'usage des codons et la composition en bases dépendent de l'organisme (et parfois même varient entre séquences d'un même organisme), il est nécessaire de construire plusieurs matrices. Lors de l'utilisation de GeneMark, il est donc impératif de choisir la matrice correspondant au mieux à la séquence à analyser.
Sites GeneMark
La version officielle se trouve ici.
Interprétation des résultats
List of Open Reading Frames
Les résultats sont données avec plusieurs possibilités de début pour chaque ORF :
Le programme fournit une sortie graphique en format pdf ou postscript (option: Generate PDF graphics (à l'écran) option: Generate PostScript graphics (par mail). L'axe des x du graphe correspond à la séquence. Le graphe est composé de six fenêtres horizontales, chacune associée à une des six phases codantes: les trois premières correspondent aux trois phases de lecture sur le brin direct et les trois suivantes aux phases du brin indirect. L'axe des y représente la probabilité moyenne de chaque "fenêtre" (entre 0 et 1).
Les barres grises signalent les régions ayant une forte probabilité moyenne de coder pour une protéine. Les marques au niveau de la ligne 0.5 indiquent la position des codons initiateurs (tiret de 1,5 mm vers le haut pour ATG, de 0,75 pour GTG) et des codons stops (1,5 mm vers le bas).