silico.biotoul.fr
 

M1 MABS BBS Math TD Proba

From silico.biotoul.fr

Revision as of 14:59, 28 October 2013 by Barriot (Talk | contribs)
Jump to: navigation, search

Vraissemblance

Rappel :

P(A/B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B/A) \times P(A)}{P(B)}

Il s'agit dans la suite de détecter la présence de RBS (Ribosome Binding Site) sur une séquence génomique : P(RBS/sequence) = \frac{P(sequence/RBS) \times P(RBS)}{P(sequence)}


Pour se convaincre de la présence d'un motif conservé, les séquences en amont du site d’initiation de la traduction d'une centaine de séquences de Bacillus subtilis sont fournies (Séquences au format fasta). Elles sont alignées sur le codon start.

A l'aide du site WebLogo, établir le Weblogo correspondant aux séquences de B. subtilis. Où se situent les RBS ?


L'alignement des séquences de RBS de B. subtilis vous est fournit dans un format facilement lisible sous R. Il va vous servir à calculer P(sequence/RBS). Pour cela, vous pourrez construire une matrice contenant les fréquences de chaque nucléotide à chaque position de l'alignement.

Pour la probabilité de présence d'un RBS, il est possible de l'approximer par le nombre de gènes (4,177) B. subtilis divisé par la taille de son génome (4,215,606 bp).

Pour la probabilité d'observer une séquence, on pourra utiliser le produit des fréquences de chaque nucléotide dans le génome Media:BsubA.fas.gz

Séquence test

Loi hypergéométrique

p=\sum^{min(q,t)}_{k=c}\frac{C^k_t\times C^{q-k}_{g-t}}{C^q_g}

appliquée à la sur-représentation d'une annotation dans un ensemble de gènes, c'est-à-dire à la comparaison de 2 ensembles :

  • c: nombre de gènes communs
  • q: nombre de gènes du premier ensemble (query par exemple gènes différentiellement exprimés ou co-exprimés)
  • t: nombre de gènes du deuxième ensemble (target par exemple gènes annotatés 'biosynthèse des acides aminés')
  • g: nombre de gènes dans le génome


A quoi correspondent C^k_t ? C^{q-k}_{g-t} et C^q_g ?


Rappel : Combinaisons: C^p_n = \frac{A^p_n}{p!} = \frac{n!}{p!(n-p)!}


  • Calculer la p-valeur pour c=30, q=100, t=300 et g=20000
  • Quelle est le plus grand nombre x pour lequel vous pouvez calculer x! ?