silico.biotoul.fr
 

InfoBio TD Ecoli Outbreak

From silico.biotoul.fr

Jump to: navigation, search

En 2011, une souche pathogène d'Escherichia coli a été la cause d'un grand nombre d'intoxications alimentaires, notamment en Allemagne, une partie d'entre elles ayant causé la mort de la personne infectée.

Vers la fin mai 2011, un institut allemand - le RKI - a remarqué le nombre inhabituel d'infections (Hemolytic Uremic Syndrome & bloody diarrhea). Des prélèvements effectués sur les patients ont conduit au séquençage de la souche responsable : O104-H4 str. LB226692 (accession AFOB02).

Le but de cette séance est de comparer le génome de cette souche avec une parente la plus proche possible, afin d'identifier les régions acquises ou perdues par cette souche et d'y rechercher les gènes pouvant expliquer le phénotype des patients.

Une analyse phylogénomique a permis d'identifier une souche très proche (à partir de l'alignement de 166 640 positions sur 527 gènes de 354 taxons) : Escherichia coli 55989. (cf. sur le site PATRIC la phylogénie des E. coli).

1. Récupérer au format FASTA les génomes des souches LB226692 et 55989.

2. A l'aide du logiciel MAUVE (normalement, préinstallé sur vos machines /usr/local/mauve), réalisez l'alignement (Align with progressiveMauve...) des génomes de ces 2 souches et identifiez visuellement des régions uniques à l'une ou l'autre souche. S'il n'est pas installé, téléchargez-le. Pour le lancer, utilisez plutôt Java fournit par Sun (/usr/java/latest/bin/java -jar Mauve.jar).

3. A l'aide des fichiers de sorties de MAUVE, il va vous falloir extraire les régions non-alignées de la souche LB226692. Vous trouverez dans la documentation les formats des différents fichier de sortie. Si vous inspectez le fichier FASTA du génome de LB226692, vous vous apercevrez qu'il peut être compliqué d'extraire une région d'un génome lorsque le séquençage ne permet pas d'obtenir la séquence complète du chromosome. Vous y arriverez plus facilement à l'aide du fichier alignment_file produit par MAUVE et en utilisant BioPerl (objet Bio::AlignIO).

#!/usr/bin/perl -w
 
use strict;
use Bio::AlignIO;
use Data::Dumper;
 
# TAKE ALIGNMENT FILE NAME AS INPUT
my $alignmentFile = shift;
 
# OPEN IT
my $in = Bio::AlignIO->new(-file => $alignmentFile, -format => 'xmfa');
 
# USEFUL FUNCTIONS TO USE #
###########################
 
my $aln = $in->next_aln(); # GET NEXT REGIONS ALIGNED
 
my $nb_seq = $aln->num_sequences; # NUMBER OF SEQUENCES ALIGNED (1 means the region is not aligned to any other)
 
my $aln_length = $aln->length; # LENGTH OF THE ALIGNMENT
 
$aln->each_seq() # ITERATOR OVER REGIONS/SEQUENCES ALIGNED, 
 
# WITH THE FIRST ONE AS $seq:
$seq->id() # accession
$seq->start, $seq->end # coordinates
$seq->seq # sequence itself


4. Une fois les régions spécifiques à LB226692 de taille supérieure à 300 nucléotides extraites au format FASTA, utilisez l'interface Web du programme BLAST (recherche de séquences par similarité de séquences) que vous trouverez au NCBI (utilisez pour tenter d'identifier des régions codant pour des protéines pouvant expliquer le caractère pathogène de cette souche.

Paramètres pour BLAST :

  • Utiliser blastX (traduit votre séquence nucléique dans les 6 phases pour rechercher dans une banque de séquences protéiques)
  • Database: nr
  • Organism: Escherichia coli O157:H7 str. EDL933 (Les symptômes des patients ressemblant fortement à cette souche O157:H7, vous commencerez par restreindre la recherche aux protéines de cette souche).

D'après la description de la souche étudiée maintenant disponible sur wikipedia (et qui ne l'était bien sûr pas avant ce type d'analyses), vous devriez retrouvez des gènes codant pour des toxines.

Références