silico.biotoul.fr
 

InfoBio TD Ecoli Outbreak

From silico.biotoul.fr

(Difference between revisions)
Jump to: navigation, search
m
m
Line 12: Line 12:
3. A l'aide des fichiers de sorties de MAUVE, il va vous falloir extraire les régions non-alignées de la souche LB226692. Vous trouverez dans la documentation les [http://asap.ahabs.wisc.edu/mauve-aligner/mauve-user-guide/mauve-output-file-formats.html formats] des différents fichier de sortie. Si vous inspectez le fichier FASTA du génome de LB226692, vous vous apercevrez qu'il peut être compliqué d'extraire une région d'un génome lorsque le séquençage ne permet pas d'obtenir la séquence complète du chromosome. Vous y arriverez plus facilement à l'aide du fichier ''alignment_file'' produit par MAUVE et en utilisant BioPerl (objet Bio::AlignIO).
3. A l'aide des fichiers de sorties de MAUVE, il va vous falloir extraire les régions non-alignées de la souche LB226692. Vous trouverez dans la documentation les [http://asap.ahabs.wisc.edu/mauve-aligner/mauve-user-guide/mauve-output-file-formats.html formats] des différents fichier de sortie. Si vous inspectez le fichier FASTA du génome de LB226692, vous vous apercevrez qu'il peut être compliqué d'extraire une région d'un génome lorsque le séquençage ne permet pas d'obtenir la séquence complète du chromosome. Vous y arriverez plus facilement à l'aide du fichier ''alignment_file'' produit par MAUVE et en utilisant BioPerl (objet Bio::AlignIO).
 +
 +
<lang source='perl'>
 +
#!/usr/bin/perl -w
 +
 +
use strict;
 +
use Bio::AlignIO;
 +
use Data::Dumper;
 +
 +
# TAKE ALIGNMENT FILE NAME AS INPUT
 +
my $alignmentFile = shift;
 +
 +
# OPEN IT
 +
my $in = Bio::AlignIO->new(-file => $alignmentFile, -format => 'xmfa');
 +
 +
# USEFUL FUNCTIONS TO USE #
 +
###########################
 +
 +
my $aln = $in->next_aln(); # GET NEXT REGIONS ALIGNMED
 +
 +
my $nb_seq = $aln->num_sequences; # NUMBER OF SEQUENCES ALIGNED (1 means the region is not aligned to any other)
 +
 +
my $aln_length = $aln->length; # LENGTH OF THE ALIGNMENT
 +
 +
$aln->each_seq() # ITERATOR OVER REGIONS/SEQUENCES ALIGNED,
 +
 +
# WITH THE FIRST ONE AS $seq:
 +
$seq->id() # accession
 +
$seq->start, $seq->end # coordinates
 +
$seq->seq # sequence itself
 +
 +
</lang>
 +
4. Une fois les régions spécifiques à LB226692 de taille supérieure à 300 nucléotides extraites au format FASTA, utilisez l'interface Web du programme BLAST (recherche de séquences par similarité de séquences) que vous trouverez au NCBI (utilisez  pour tenter d'identifier des régions codant pour des protéines pouvant expliquer le caractère pathogène de cette souche.  
4. Une fois les régions spécifiques à LB226692 de taille supérieure à 300 nucléotides extraites au format FASTA, utilisez l'interface Web du programme BLAST (recherche de séquences par similarité de séquences) que vous trouverez au NCBI (utilisez  pour tenter d'identifier des régions codant pour des protéines pouvant expliquer le caractère pathogène de cette souche.  

Revision as of 08:13, 13 March 2013

En 2011, une souche pathogène d'Escherichia coli a été la cause d'un grand nombre d'intoxications alimentaires, notamment en Allemagne, une partie d'entre elles ayant causé la mort de la personne infectée.

Vers la fin mai 2011, un institut allemand - le RKI - a remarqué le nombre inhabituel d'infections (Hemolytic Uremic Syndrome & bloody diarrhea). Des prélèvements effectués sur les patients ont conduit au séquençage de la souche responsable : O104-H4 str. LB226692 (accession AFOB02).

Le but de cette séance est de comparer le génome de cette souche avec une parente la plus proche possible, afin d'identifier les régions acquises ou perdues par cette souche et d'y rechercher les gènes pouvant expliquer le phénotype des patients.

Une analyse phylogénomique a permis d'identifier une souche très proche (à partir de l'alignement de 166 640 positions sur 527 gènes de 354 taxons) : Escherichia coli 55989. (cf. sur le site PATRIC la phylogénie des E. coli).

1. Récupérer au format FASTA les génomes des souches LB226692 et 55989.

2. A l'aide du logiciel MAUVE (normalement, préinstallé sur vos machines), réalisez l'alignement des génomes de ces 2 souches et identifiez visuellement des régions uniques à l'une ou l'autre souche.

3. A l'aide des fichiers de sorties de MAUVE, il va vous falloir extraire les régions non-alignées de la souche LB226692. Vous trouverez dans la documentation les formats des différents fichier de sortie. Si vous inspectez le fichier FASTA du génome de LB226692, vous vous apercevrez qu'il peut être compliqué d'extraire une région d'un génome lorsque le séquençage ne permet pas d'obtenir la séquence complète du chromosome. Vous y arriverez plus facilement à l'aide du fichier alignment_file produit par MAUVE et en utilisant BioPerl (objet Bio::AlignIO).

<lang source='perl'>

  1. !/usr/bin/perl -w

use strict; use Bio::AlignIO; use Data::Dumper;

  1. TAKE ALIGNMENT FILE NAME AS INPUT

my $alignmentFile = shift;

  1. OPEN IT

my $in = Bio::AlignIO->new(-file => $alignmentFile, -format => 'xmfa');

  1. USEFUL FUNCTIONS TO USE #

my $aln = $in->next_aln(); # GET NEXT REGIONS ALIGNMED

my $nb_seq = $aln->num_sequences; # NUMBER OF SEQUENCES ALIGNED (1 means the region is not aligned to any other)

my $aln_length = $aln->length; # LENGTH OF THE ALIGNMENT

$aln->each_seq() # ITERATOR OVER REGIONS/SEQUENCES ALIGNED,

  1. WITH THE FIRST ONE AS $seq:

$seq->id() # accession $seq->start, $seq->end # coordinates $seq->seq # sequence itself

</lang>


4. Une fois les régions spécifiques à LB226692 de taille supérieure à 300 nucléotides extraites au format FASTA, utilisez l'interface Web du programme BLAST (recherche de séquences par similarité de séquences) que vous trouverez au NCBI (utilisez pour tenter d'identifier des régions codant pour des protéines pouvant expliquer le caractère pathogène de cette souche.

Paramètres pour BLAST :

  • Utiliser blastX (traduit votre séquence nucléique dans les 6 phases pour rechercher dans une banque de séquences protéiques)
  • Database: nr
  • Organism: Escherichia coli O157:H7 (Les symptômes des patients ressemblant fortement à ceux des souches O157:H7, vous commencerez par restreindre la recherche aux protéines de ces souches).

Références