Identification de bactéries à l'aide de l'ARN 16S


Introduction

L'analyse des séquences d'ARNr 16S est une des méthodes les plus utilisées pour identifier et caractériser une espèces bactérienne ou une comunauté de microorganismes dans des domaines aussi divers que l'écologie ou la médecine. Le but de ce TD n'est pas de faire une revue exaustive des différentes approches et méthodes disponibles, mais d'illustrer sur quelques exemples les potentialités de ces approches. Nous présenterons et utiliserons deux ressources disponibles sur internet.

Ribosomal Database Project II

La première ressource, la RDP (Ribosomal Database Project II) a été développée afin de répondre à la demande croissante d'analyse à haut débit des séquences d'ARNr, que ce soit en écologie microbienne ou en médecine. Le site propose à la communauté :
Sur la page d'entrée, nous trouvons 7 liens sur des outils d'analyses:
Les séquences, sélectionnées au cours des différentes opérations, sont conservées dans seqCart. Il est possible de vider cette carte avec l'option RESET ou au contraire de la sauvegarder comme fichier dans un répertoire local. Ce fichier peut être relu pour reprendre les analyses sur ce sous ensemble de séquences.
Les séquences personnelles, ajoutées avec myRDB, peuvent être extraites dans un alignement multiple avec les séquences contenues dans seqCart. Si vous modifiez seqCart et que vous réalisez de nouveau une extraction, alors le fichier contient toujours vos séquences personnelles, mais maintenant alignées avec les séquences contenues dans seqCart. En résumé, vos séquences personnelles n'ont besoin d'être ajoutées qu'une fois à myRDB!

Mise à jour de la RDP
Les séquences d'ARNr sont extraites automatiquement de l'International Nucleotide Sequence Database (GenBank/EMBL/DDBJ), une fois par mois. Les séquences sont alignées à l'aide du programme RNACAD.  La taxonomie est basée sur celle proposée par Garrity et al., (http://dx.doi.org/10.1007/bergeysoutline). Les nouvelles séquences sont replacées dans cette hiérarchie à l'aide du RDP Classifier.


leBIBI

La ressource BIBI est également dédiée à l'identification des bactéries, mais son originalité réside dans l'automatisation du processus et la possibilité d'utiliser d'autres marqueurs que les ARNr 16S. La méthode est basée sur l'utilisation de BLAST, MUSCLE et CLUSTALW et procède en quatre étapes: recherche des séquences voisines de la séquence d'intérêt (BLAST), extraction de ces séquences, alignement multiple (MUSCLE) et renvois des résultats sous la forme d'une table triée sur les distances entre la séquence d'intérêt et ses voisines et d'un arbre phylogénétique (CLUSTALW). Les données sont extraites de GenBank, mais elles sont croisées avec la nomenclature contenue dans la banque DSMZ (http://www.dsmz.de/) et soigneusement analysées afin d'écarter de l'ensemble de référence les séquences suspectes.

Green Genes

Greengenes est une ressource WEB qui propose également un ensemble de services très performants pour l'identification des bactéries à partir des séquences de l'ARNr 16S. Un tutorial très détaillé est proposé sur le site. Les méthodes disponibles aident à la sélection des oligonucléotides pour la PCR, à l'interprétation de résultats de puces 16S et à aligner et annoter de nouvelles séquences.

Séquences  chimériques

L'amplification par PCR d'ARNr 16S à partir d'une librairie contenant plusieurs souches bactériennes peut conduire à la production de séquences chimériques. Ces séquences doivent être identifiées et suprimées de l'échantillon d'étude afin d'éviter de mauvaises classifications. Le programme Bellerophon a été développé pour automatiser cette tache. Il est basé sur l'analyse phylogénétique d'un alignement multiple de séquences. Une fenêtre de longueur fixée à l'avance (exemple 300 bp) est déplacée le long de l'alignement avec un pas constant (ex. 10bp). La fenêtre est découpée par son milieu et sur chaque moitiée la matrice de distances entre séquences est calculée. Dans l'esprit de la méthode, la congruence des deux arbres calculés sur ces moitiés serait estimée, mais en pratique, cela n'est pas nécessaire. La valeur absolue de l'écart entre les éléments correspondants des deux matrices est calculé. Une séquence chimérique est identifiée par un écart important et le site de "recombinaison" correspond au centre de la fenêtre présentant l'écart le plus important. La séquence est alors coupée en deux parties par rapport à ce site et on recherche pour chaque partie la ou les séquences les plus proches dans l'ensemble de séquences issues de l'échantillon - en effet, la chimère est probablement issues de deux de ces sequences! - ou dans une base de données contenant toutes les séquences d'ARNr 16S.
 

Identification d'une nouvelle espèce de bactérie

Cet exemple est basé sur une publication d'Hantsis-Zacharov et Halpern (2007). Les auteurs ont étudié les bactéries tolérantes au sels dans le lait cru. Sur un ensemble de 300 cultures pures, ils ont isolé une souche de Chryseobacterium appelée H38T. Afin d'identifier et de caractériser cette souche, ils ont réalisé une analyse comparative de son ARNr 16S et une analyse phénotypique comparative avec les espèces de Chryseobacterium déjà connues. Nous  nous intéresserons ici uniquement à l'analyse de l'ARNr 16S.

Un fragement interne du gène codant pour l'ARNr 16S a été obtenu par PCR à l'aide de deux primers "universels":
8f       5'-AGAGTTTGATCCTGGCTCAG- 3'
1512r 5'-TACGGTTACCTTGTTACGAC-3'
Le produit de l'amplification d'environ 1,5 kb a été purifié et séquencé (H38T.fts).
Les auteurs ont utilisé la banque de données EMBL et le programme Wu

Questions
  • A l'aide de RDP, vérifiez l'universalité des deux primers. Les valeurs 8 et 1512 correspondent à la positions de ces primers dans la séquence d'E. coli. Vous pouvez faire varier le nombre d'erreurs que vous acceptez.
  • Utilisez le Classifier pour obtenir un assignement taxonomique de votre séquence.
  • Utilisez Sequence Match pour construire un fichier avec les séquences voisines de H38T. Dans un premier temps, utilisez uniquement les séquences "Types".  Sétectionner les séquences et les charger dans SeqCART.
Pour que votre séquence soit ajoutée à l'alignement, il faut tout d'abord qu'elle soit alignée avec les séquences d'ARNr 16S de la base de donnée et ensuite ajoutée au SeqCART. Ceci est réalisé grâce à  myRDP (page d'accueil de la RDP) que vous lancerez avec Test Drive.
    • commencez par un upload de votre séquence, qui sera alignée, 
    • ouvrir ensuite son projet et  sélectionner la séquence alignée,
    • puis terminez par un download de votre séquence et de ses voisines contenues dans SeqCART (format FASTA avec les AC GenBank).
  • Reprenez le fichier avec l'éditeur de séquences seaview. Vérifiez l'alignement multiple et si besoin est, optimisez le positionnement des insertions/délétions.
  • Réalisez un arbre phylogénétique . Vous pouvez utiliser une méthode de distance et PhyML.
  • Evaluez la signification des différentes branches des arbres obtenus (valeur de bootstrap).
  • Vous allez maintenant utiliser leBIBI pour réaliser l'identification. récupérer
  • Que pensez-vous des résultats obtenus?
  • Recommencez Sequence Match mais sans restriction sur les souches.  Comme vous pouvez l'observer votre séquence est déjà dans la base de données (S000805862).
  • Recommencez les différentes étapes (l'extraction de fichier n'a pas besoin de passer par myRDP, votre séquence appartient déjà à l'alignement).
Analyse de communautées microbiennes (métagénomique)

Nous allons nous intéresser à la composition et à la structure des communautées bactériennes impliquées dans l'extraction des métaux (bioleaching). Les échantillons analysés (K1 et K2) ont été prélevés au niveau des eaux de drainage sur deux sites d'une mine de cuivre de Tong Shankou en Chine (Xie et al., 2007). Les deux sites présentent les mêmes caractéristiques générales, avec des pH de 2-5 et une température moyenne d'environ 25°C mais possèdent des concentrations différentes pour un certain nombre d'éléments chimiques simples :

Eléments Echantillon K1 Echantillon K2
Fer 1300 545
Cuivre 990 374.4
Sulfure 2060 1610
Calcium 459.1 516
Aluminium 275.9 284.9
Silice 50.4 90.7
Aspartate 3.5 2.6
Argent 0.5 0.01
Bismuth 9.4 18.7
Indium 4.7 0.01


Les micro environnements naturels extrêmement acides (AMD) ont pour origine la dissolution de roches contenant des sulfides quand elles se retrouvent exposées à l'air, à l'eau et aux microorganismes. L'utilisation de microorganismes dans l'exploitation minière (biosolubilisation des métaux à partir de minerais) conduit à une augmentation artificielle de ces micro environnements acides qui peut générer des problèmes environnementaux. à plus grande échelle. Plusieurs facteurs affectent la création et l'évolution de ces AMD : les minéraux présents, le type de roche, la température, mais également la présence de bactéries oxydatrices du fer comme Acidithiobacillus ferrooxidans et Leptospirillum ferrooxidans. Les études les plus récentes montrent que tous les AMD présentent une écologie microbienne complexe incluant au moins huit divisions de bacteria et au moins trois divisions d'archaea (Thermoplasma, Ferroplasma et Sulfolobales).


Les comunautées bactériennes ont été amplifiées par PCR à l'aide de deux paires de primers "universels":

    27f     5'-AGAGTTTGATCCTGGCTCAG-3'
    1492r 5'-CGGCTACCTTGTTACGACTT-3'
et
    S20    5'-ACGGGGCGCAGCAGGCGCGA-3'
    A21   5'-ACGGCTACCTTGTTACGACTT-3'

Après purification, les produits de PCR ont été séquencés. Les séquences des deux sites sont disponibles dans les fichiers Copper_Mine.K1 et Copper_Mine.K2.

Questions
  • Pour quelles raisons les auteurs ont utilisé deux paires de primers?
  • Utilisez le programme Bellerophon afin de vérifier la qualité des deux échantillons de séquences. Les résultats vous sont envoyés par courrier électronique. En attendant de les recevoir vous pouvez les consulter ici 12
  • Utilisez le serveur RDP pour comparer la distribution taxonomique des deux échantillons de séquences. 
  • Commentez les résultats.
  • Quelles sont les espèces les plus fréquentes sur les deux sites?
Nous allons réaliser une analyse phylogénétique un peu plus poussée avec les séquences d'archaea
  • Construire un fichier avec les séquences d'archaea extraites des deux fichiers Copper_Mines.K1 et Copper_Mine.K2.
  • Utiliser  Sequence Match pour construire un fichier avec les séquences voisines des séquences d'archaea (on choisira les souches types).
  • Comme précédemment, créer votre projet myRDP pour obtenir les séquences d'archaea des deux échantillons alignées avec les séquences d'ARNr 16S de la RDP. Ajouter ensuite les séquences voisines de votre SeqCart et récupérer l'ensemble (format FASTA, AC Genbank).
  • Charger l'alignement dans Seaview, le vérifier et construire un arbre avec par exemple la méthode BioNJ et le modèle évolutif Kimura 2 paramètres (rapide)
  • Analyser les résultats en les comparant avec ceux que vous avez obtenus avec le classifier de la RDP à l'étape précédente.
  • Rechercher des informations sur les espèces d'archaea identifiées dans les deux sites.
Réaliser la même étude mais avec les séquences de bactéries présentes dans les deux échantillons