From silico.biotoul.fr

Projet 1 : Détermination du génome coeur

Nous avons vu en cours que la taille et le nombre de gènes entre génomes de différentes souches d'une même espèce bactérienne pouvaient varier. Le génome coeur (ou core genome) a été défini comme correspondant à l'ensemble des gènes communs à toutes les souches d'une même espèce (ensemble des gènes orthologues).

Comment pratiquement et rapidement peut-on identifier les gènes orthologues entre deux espèces ?

La technique la plus couramment utilisée consiste à analyser les résultats d'un programme appelé Blast qui permet de comparer rapidement une séquence donnée (séquence requête ou query) à un ensemble de séquences constituant une banque. Le résultat du Blast est un alignement local indiquant les régions présentant des similarités entre les deux séquences. Cette similarité est quantifiée par le pourcentage d'identité trouvé entre les deux séquences alignées, le score de l'alignement (appelé bit score) et la Evalue qui correspond au nombre attendu d’alignements qui par chance aurait un score ≥ au score obtenu avec nos deux "vraies" séquences. Ce nombre est évalué en regardant les scores des alignements générés par comparaison de séquences aléatoires ayant même longueur et même composition que la séquence requête. Plus la Evalue est faible plus l'alignement obtenu est significatif.

Pour rechercher les gènes orthologues, la comparaison se fait souvent au niveau de leurs produits protéiques. Nous utiliserons donc ici, par abus de langage, les termes d'orthologues et de paralogues pour des séquences protéiques, ceci pour simplifier l'écriture.

Dans les fichiers joints, vous trouverez donc le résultat de la comparaison de chaque protéine d'un génome (chaque séquence sera à son tour séquence requête) avec l'ensemble des protéines d'un autre génome constituant donc la banque de séquences. Le programme utilisé pour la comparaison est BlastP (version du blast pour comparer une séquence protéique à une banque protéique).

Nomenclature utilisée et exemple

Code à 5 lettres se référant au nom de l'espèce suivi d'une cinquième lettre assignée à la souche : EcolA: Ecol pour Escherichia coli et la dernière lettre se référant à la souche (A pour K12 MG1655, B pour O157:H7, D pour CFT073, L pour K12 DH10B, M pour SECEC SMS-3-5, R pour IAII, U pour UMN026 et X pour BL21)

Pour plus d'informations sur les souches : https://www-abcdb.biotoul.fr/#/entry/displaytaxonomytree/Taxon_Name/EcolA (remplacer EcolA dans l'URL par le génome qui vous intéresse).

EcolB_EcolD.blt : chaque séquence du génome de la souche EcolB01 sera une séquence query qui sera comparée à l'ensemble des séquences protéiques de la souche EcolD01. Comme résultats on ne gardera que le premier hit (donc la séquence de EcolD01 qui possède la plus petite Evalue). On parlera alors de Best Hit.

Si on prend l'exemple de la séquence EcolB01.ECS002 son best hit dans EcolD01 est la séquence EcolD01.THRA. On notera BH(EcolB01.ECS002, EcolD01.THRA) la Evalue est de 0 et le score de 1590.

EcolD_EcolB.blt : chaque séquence du génome de la souche EcolD01 sera une séquence query qui sera comparée à l'ensemble des séquences protéiques de la souche EcolB0101. Comme résultats on ne gardera que le premier hit.

Si on prend l'exemple de la séquence EcolD01.THRA, son best hit est la séquence EcolB01.ECS002. On a donc BH(EcolD01.THRA,EcolB01.ECS002)

Dans cet exemple on a donc BH(EcolB01.ECS002, EcolD01.THRA) = BH(EcolD01.THRA,EcolB01.ECS002), les deux séquences sont réciproquement best hit l'une de l'autre. Dans ce cas on parle de Best Bidirectional Hits appelé dans la littérature BBH.

La première condition pour que deux protéines soient orthologues est qu'elles soient BBH. Ensuite, pour que cette relation soit 1:1, il ne faut pas qu'une des deux séquences possède une séquence paralogue dont le score d'alignement serait supérieur à celui du BBH.

Nous devons donc vérifier qu'il n'y a pas eu de duplication du gène dans un des deux génomes après leur divergence (qui serait donc plus récente que la divergence) et qui résulterait dans la présence d'une séquence paralogue (dans le même génome) ayant un score de d'alignement de Blast supérieur à celui obtenu entre les séquences BBH de nos deux génomes. Pour cela, pour chaque génome, chacune de ces séquences protéiques a été comparée à l'ensemble des autres séquences protéiques et le premier et donc meilleur hit obtenu est appelé Best Paralog, noté BP.

Les résultats de ces comparaisons sont trouvés dans les fichiers portant deux fois le nom de la souche.

Si nous reprenons l'exemple précédant :

EcolB_EcolB.blt : chaque séquence protéique de la souche EcolB01 est comparée à toutes les autres protéines de cette souche.

Le best hit de la séquence EcolB01.ECS002 est EcolB01.ECS4869, après le premier hit trivial qui est celui de la séquence requête avec elle-même. Ces deux séquences sont donc best paralog et le score de l'alignement obtenu est 341.

EcolD_EcolD.blt : chaque séquence protéique de la souche EcolD01 est comparée à toutes les autres protéines de cette souche. Le best hit de la séquence EcolD01.THRA est EcolD01.METL. Ces deux séquences sont donc best paralog et le score de l'alignement obtenu est 344.

Les deux scores BP(EcolB01.ECS002,EcolB01.ECS4869) = 341 et BP(EcolD01.THRA,EcolD01.METL) = 344 < BBH((EcolB01.ECS002, EcolD01.THRA) = 1590

Il n'existe donc pas de séquences paralogues dans aucun des deux génomes possédant un score d'alignement supérieur au BBH. Donc nous pouvons conclure que EcolB01.ECS002 et EcolD01.THRA sont deux séquences orthologues 1:1.

Données fournies

Travail demandé

Faire le programme qui permet d'extraire le génome coeur en appliquant les principes énoncés ci-dessus et donner le résultat obtenu sur les 7 génomes analysés, c'est à dire le nombre et la liste des protéines constituant ce génome coeur.

Rendre un rapport décrivant votre démarche et intégrant l'algorithme du programme. Le code du programme (commenté) sera envoyé séparément.

Projet 2 : Création et analyse des profils phylogénétiques

Pour rappel : un profil phylogénétique décrit la présence ou l'absence d'un gène (d'une protéine) dans un ensemble de génomes comparés à un génome de référence. Ces gènes (ou protéines) doivent présenter une relation d'orthologie avec le gène (la protéine) du génome de référence.