Prédiction des régions codantes


Introduction sur GeneMark

La méthode repose sur le modèle probabiliste suivant:

Hypothèse 1: La probabilité d'observer une base à une position donnée dépend: 1) des bases précédant cette position et, si la région est codante, 2) de sa localisation dans le codon. Ce qui peut être modéliser par un modèle de Markov homogène dans le cas des régions non-codantes et par un modèle de Markov non-homogène (dépendant de la phase) dans le cas des séquences codantes. L'ordre du modèle de Markov correspond au nombre de bases que l'on doit considérer en amont de la position donnée.

Hypothèse 2: Une région particulière ne peut être que dans un des 7 états suivant:

  1. codant en phase 1 sur le brin direct
  2. codant en phase 2 sur le brin direct
  3. codant en phase 3 sur le brin direct
  4. codant en phase 4 sur le brin indirect
  5. codant en phase 5 sur le brin indirect
  6. codant en phase 6 sur le brin indirect
  7. non-codant
Pour faire la prédiction, il suffit alors de calculer les probabilités d'observer la région dans un état i sachant que l'un des 7 états est réalisé (formule de Bayes).

Les probabilités sont déterminées à partir d'une matrice calculée sur un ensemble de régions appartenant à l'un des 7 états possibles. L'ordre du modèle de Markov est laissé au choix de l'utilisateur (généralement 4 ou 5). Comme l'usage des codons et la composition en bases dépendent de l'organisme (et parfois même varient entre séquences d'un même organisme), il est nécessaire de construire plusieurs matrices. Lors de l'utilisation de GeneMark, il est donc impératif de choisir la matrice correspondant au mieux à la séquence à analyser.

Sites GeneMark

La version officielle se trouve ici

Interprétation des résultats

List of Open Reading Frames

Les résultats sont données avec plusieurs possibilités de début pour chaque ORF :

Attention, le codon initiateur utilisé in vivo n'est pas nécessairement celui qui a la plus forte probabilité, mais généralement celui qui est situé le plus à gauche!

Le programme fournit une sortie graphique en format pdf ou postscript (option: Generate PDF graphics (à l'écran) option: Generate PostScript graphics (par mail). L'axe des x du graphe correspond à la séquence. Le graphe est composé de six fenêtres horizontales, chacune associée à une des six phases codantes: les trois premières correspondent aux trois phases de lecture sur le brin direct et les trois suivantes aux phases du brin indirect. L'axe des y représente la probabilité moyenne de chaque "fenêtre" (entre 0 et 1).

Les barres grises signalent les régions ayant une forte probabilité moyenne de coder pour une protéine. Les marques au niveau de la ligne 0.5 indiquent la position des codons initiateurs (tiret de 1,5 mm vers le haut pour ATG, de 0,75 pour GTG) et des codons stops (1,5 mm vers le bas).


cliquez ici pour revenir au tutorial.