M1 MABS BBS Math TD Proba
From silico.biotoul.fr
m |
m (→Vraissemblance) |
||
Line 4: | Line 4: | ||
<math>P(A/B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B/A) \times P(A)}{P(B)}</math> | <math>P(A/B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B/A) \times P(A)}{P(B)}</math> | ||
- | + | Il s'agit dans la suite de détecter la présence de RBS (Ribosome Binding Site) sur une séquence génomique : | |
+ | <math>P(RBS/sequence) = \frac{P(sequence/RBS) \times P(RBS)}{P(sequence)}</math> | ||
- | |||
- | [[Media:Maths Proba Alignement RBS.txt| | + | |
+ | Pour se convaincre de la présence d'un motif conservé, les séquences en amont du site d’initiation de la traduction d'une centaine de séquences de ''Bacillus subtilis'' sont fournies ([[Media:Bsubtilis_RBS.fasta|Séquences au format fasta]]). Elles sont alignées sur le codon start. | ||
+ | |||
+ | A l'aide du site [http://weblogo.threeplusone.com/ WebLogo], établir le Weblogo correspondant aux séquences de ''B. subtilis''. Où se situent les RBS ? | ||
+ | |||
+ | |||
+ | L'[[Media:Maths Proba Alignement RBS.txt|alignement]] des séquences de RBS de ''B. subtilis'' vous est fournit dans un format facilement lisible sous R. Il va vous servir à calculer P(sequence/RBS). Pour cela, vous pourrez construire une matrice contenant les fréquences de chaque nucléotide à chaque position de l'alignement. | ||
+ | |||
+ | Pour la probabilité de présence d'un RBS, il est possible de l'approximer par le nombre de gènes (4,177) ''B. subtilis'' divisé par la taille de son génome (4,215,606 bp). | ||
+ | |||
+ | Pour la probabilité d'observer une séquence, on pourra utiliser le produit des fréquences de chaque nucléotide dans le génome [[Media:BsubA.fas.gz]] | ||
[[Media:Maths Proba Sequence test.txt|Séquence]] test | [[Media:Maths Proba Sequence test.txt|Séquence]] test |
Revision as of 14:59, 28 October 2013
Vraissemblance
Rappel :
Il s'agit dans la suite de détecter la présence de RBS (Ribosome Binding Site) sur une séquence génomique :
Pour se convaincre de la présence d'un motif conservé, les séquences en amont du site d’initiation de la traduction d'une centaine de séquences de Bacillus subtilis sont fournies (Séquences au format fasta). Elles sont alignées sur le codon start.
A l'aide du site WebLogo, établir le Weblogo correspondant aux séquences de B. subtilis. Où se situent les RBS ?
L'alignement des séquences de RBS de B. subtilis vous est fournit dans un format facilement lisible sous R. Il va vous servir à calculer P(sequence/RBS). Pour cela, vous pourrez construire une matrice contenant les fréquences de chaque nucléotide à chaque position de l'alignement.
Pour la probabilité de présence d'un RBS, il est possible de l'approximer par le nombre de gènes (4,177) B. subtilis divisé par la taille de son génome (4,215,606 bp).
Pour la probabilité d'observer une séquence, on pourra utiliser le produit des fréquences de chaque nucléotide dans le génome Media:BsubA.fas.gz
Séquence test
Loi hypergéométrique
appliquée à la sur-représentation d'une annotation dans un ensemble de gènes, c'est-à-dire à la comparaison de 2 ensembles :
- c: nombre de gènes communs
- q: nombre de gènes du premier ensemble (query par exemple gènes différentiellement exprimés ou co-exprimés)
- t: nombre de gènes du deuxième ensemble (target par exemple gènes annotatés 'biosynthèse des acides aminés')
- g: nombre de gènes dans le génome
A quoi correspondent ? et ?
Rappel : Combinaisons:
- Calculer la p-valeur pour c=30, q=100, t=300 et g=20000
- Quelle est le plus grand nombre x pour lequel vous pouvez calculer x! ?