Tutorial de BioInformatique

Démarche pour identification de régions pour design de sondes

On veut identifier des régions du gène mutX qui pourront être utilisées pour réaliser le design de sonde dans les cas suivant :

sonde permettant de différencier Lactococcus lactis lactis et Lactococcus lactis cremoris des autres bactéries (on ne veut donc pas différencier les deux sous espèces)
sondes spécifiques de chacune des deux sous espèces, donc dans ce cas on veut pouvoir différencier Lactococcus lactis lactis de Lactococcus lactis cremoris.

Récupération des séquences du gène mutX.

Utiliser le logiciel d'interrogation des banques de données SRS sur le site de l'EBI, dans Databases, Database Browsing
Première étape : choisir la banque de données qui sera interrogée (onglet Library page)
Deuxième étape : construire sa requête (onglet Query form)

Deux possibilités :

On choisit directement la section coding sequences de l'EMBL. Dans ce cas, l'extraction des séquences en format Fasta, une fois la requête réalisée est directe.

On choisit de partir des séquences protéiques (si pas de champs d'interrogation associés aux entrées de la section coding sequences de l'EMBL), donc on choisit UniprotKB. Dans ce cas, une fois la requête réalisée, pour avoir accès aux séquences nucléotidiques correspondant aux entrées protéiques, cliquer sur LINK (ce qui permet de faire un lien vers des données apparentés). On doit alors choisir la banque de données avec laquelle on veut établir le lien, donc ici la section coding sequences de l'EMBL, et ensuite on réalise la recherche en cochant (Find related entries).

Dans les deux cas, pour obtenir les séquences en format Fasta:

choisir Save, puis File text, et le format Fasta2Seqs. Vérifier le nombre de séquences à récupérer (Number of entries to download).

Quand les séquences ont été récupérées, modifier le nom pour enlever le | qui enacdre le numéro d'accession de chaque séquence. Donc faire Remplacer | par rien.

Première analyse :
Pour analyser et nettoyer votre jeu de données (enlever les séquences partielles, les séquences trop divergentes, les séquences redondantes car même séquence dans différentes souches) réaliser:

un alignement multiple

une construction d'arbre

Alignement multiple :

Utiliser Seaview. Par défaut le logiciel utilisé pour aligner les séquences est muscle (cf alignment option). Si vous avez besoin d'installer Seaview, il est disponible sur le site du Pôle Bioinformatique Lyonnais (PBIL).
Remarque : alternative
Aller sur le site de l'Institut Pasteur : Recherche, Logiciels et banques de données, Logiciels pour la Biologie, Alignement multiple. On choisira le logiciel muscle. On changera le format de sortie pour choisir le format Clustalw ainsi que le nom du fichier résultat pour que celui ci soit explicite. Sauvegarder l'alignement obtenu

Construction de l'arbre : Si vous travaillez avec Seaview, vous pouvez réaliser l'arbre avec le même logiciel. Sinon charger l'alignement dans Seaview. Réaliser un arbre en choisissant la neighbor joining method (NJ) (méthode basée sur les distances) ou la version plus adaptée pour les séquences biologiques BioNJ. Il faut donc choisir une distance, pour l'ADN on prendra Kimura 2 parameters. Faire environ 100 bootstrap, cela suffit pour l'analyse que l'on veut faire.
Analyser l'arbre pour nettoyer le jeu de données (garder un seul représentant pour les séquences qui apparaissent très similaires (pas de branches, ou branches très courtes sur l'arbre les séparant), supprimer les séquences trop divergentes (longues branches sur l'arbre) dont la récupération peut être par exemple due à des erreurs potentielles d'annotation.

Modifier votre jeu de données en conséquence.

Remarque : la construction de l'arbre peut être réalisée directement sur le site de l'Institut Pasteur. Une fois l'alignement multiple obtenu, en dessous de la fenêtre de résultats, un menu déroulant à côté de "further analysis" peut être utilisé pour choisir l'analyse suivante que l'on veut réaliser à partir du fichier de sortie obtenu à l'étape précédente. La première étape pour construire l'arbre est de calculer la matrice de distance entre les séquences alignées. Ceci sera réalisé grâce au programme dnadist. Choisir également la distance désirée (Kimura 2 parameters). Pour réaliser des bootstrap, aller dans bootstrap option, cocher la case perform a bootstrap before analysis, choisir bootstrap comme resampling method, 100 comme nombre de replicates et un chiffre impair pour la graine. Une fois, la matrice de distance obtenue, choisir neighbor comme further analysis. Dans la partie Bootstrap options, cocher la case Analyse multiple data sets, le nombre de data sets correspond au nombre de replicates demandés à l'étape dnadist, choisir un chiffre impair pour la graine, et cocher la case compute un consensus tree (sinon on obtiendra plusieurs arbres et non pas un seul avec la valeur des bootstraps pour chaque branche). Pour dessiner l'arbre, sous la fenêtre qui affiche l'arbre en format parenthésé choisir drawgram pour tracer l'arbre. On choisira le format de sortie et comme Tree style Phenogram.
(ex de format, après les : on a la valeur du bootstrap, problème ici de l'implémentation, on ne peut pas avoir simultanément la valeur de la longueur de la branche et celle du bootstrap comme avec phylo_win par exemple)
((((AE009948.1:100.0,((((AE005672.3:100.0,(CP000387.1:100.0,CP000725.1:100.0):100.0):100.0,
AM946016.1:100.0):90.0,ACKZ010000:100.0):94.0,(AM406671.1:100.0,AE005176.1:100.0):100.0):48.0):26.0,
AE014133.1:100.0):46.0,AE004092.1:100.0):100.0,AM946015.1:100.0);
On obtient une image de l'arbre, on ne pourra donc pas manipuler l'arbre comme on peut le faire sous Seaview.

Deuxième analyse : Sur le jeu de données nettoyé
Conseil : mettre les deux séquences de L. lactis lactis et L. lactis cremoris en premier dans votre fichier de séquences avant de faire l'alignement.
Refaire l'alignement multiple avec muscle sur ce nouveau jeu de données.
Pour analyser plus facilement l'alignement multiple et trouver les régions de la séquence d'intérêt qui n'est pas conservée dans les autres séquences des gènes mutX et qui serviront pour définir les sondes, utiliser le programme showalign dans further analysis (si vous travaillez sur Pasteur).
Si vous avez utiliser Seaview pour faire l'alignement, sauvegarder le résultat en format fasta. Puis utiliser showalign qui est disponible dans la suite EMBOSS. Cette dernière est installée sur la plateforme bioinformatique de Toulouse.
Choisir votre séquence d'intérêt comme séquence de référence (numéro de la séquence dans l'alignement). Le sauvegarder (outfile)
Dégager les régions uniques de votre séquence d'intérêt.

Troisième analyse : vérifier l'unicité de la région sélectionnée.
Pour vérifier que la région sélectionnée n'est bien présente que dans le gène de l'espèce ou la souche d'intérêt on va réaliser une recherche de similarité sur les banques de données d'acides nucléiques en utilisant la suite Blast. Aller sur le site serveur du NCBI, et réaliser une recherche avec Blast. On choisira comme banque de données, la banque non redondante nr et on effectuera un blastn.
En fonction des similarités trouvées, vous pourrez conclure à la pertinence ou non de garder cette région pour faire un design de sonde.

On veut identifier des régions dans les séquences d'ARNr 16S qui pourront être utilisées pour le design de sondes permettant d'identifier différentes souches et/ou espèces bactériennes

Récupération des séquences d'ARNr 16S

Utiliser le logiciel d'interrogation des banques de données SRS sur le site de l'EBI.
Choisir la banque de données EMBL release (onglet Library page)
Dans l'onglet Query Form, choisir Extended query, puis molecule rRNA, Organism Lactococcus lactis et sequence length >= 1500.
On doit en fait récupérer ne récupérer qu'une seule séquence, M58837. On l'affichera en format Fasta et on l'utilisera comme sonde pour une recherche par la suite Blast sur le site du NCBI.

On va prendre comme exemple l'analyse des séquences d'ARNr des Mycobactériums.
Sur le site du NCBI, Choisir le Blast Assembled genomes Microbes

Sélectionner les différents génomes complets de Mycobacterium et utiliser la séquence sélectionnée auparavant de Lactococcus lactis comme sonde.

Construire son jeu de données à partir des résultats du Blast :
Si plusieurs souches d'une même espèce apparaissent dans les résultats choisir les génomes complets (éviter whole shotgun ou contig) si possible.
Il n'est pas possible de récupérer en une seule fois l'ensemble des séquences d'ARNr. Il faut, pour chaque résultat, suivre le lien :
Features in this part of subject sequence:

   rRNA-16S ribosomal RNA
puis afficher en format Fasta. (Si on sélectionne les séquences on obtient le fragment génomique complet).

Rq: pour ensuite analyser facilement les résultats, renommer les séquences. Garder par exemple juste le nom de la souche (ex: MtubF11) car certains logiciels sont limités pour le nombre de caractères du nom de la séquence.

Comme précédemment, on va réaliser un alignement multiple avec Muscle. On pourra pour changer le réaliser sur le site de l'EBI et avoir ensuite un aperçu rapide de l'alignement en utilisant Start Jalview (aller dans Result summary). Choisir de colorier l'alignement en fonction des nucléotides. Que remarquez vous?
Si il est nécessaire d'intervenr sur les séquences, faire les modifications puis refaire l'alignement avec le nouveau jeu de données. Visualiser sous Jalview. Si cette fois-ci, l'alignement parait correct, le sauvegarder (Download alignment file) dans un fichier.
On utilisera showalign pour identifier les zones dont la séquence est spécifique à la souche bactérienne d'intérêt. Showalign est également disponible dans la suite EMBOSS. Cette dernière est installée sur la plateforme bioinformatique de Toulouse.

Récupération des séquences d'ARNr 16S en utilisant la Ribosomal Database Project

Aller sur le site de la RDP. On verra dans un prochain TD l'utilisation plus avancée de la RDP. Parmi les fonctionnalités proposées, choisir Browsers qui permet à partir d'une hiérarchie phylogénétique, de sélectionner des séquences d'intérêt et de les récupérer déjà alignées pour des analyses ultérieures.
Cocher Type pour Strain, both pour Source, >= 1200 pour Size et Good pour Quality, Nomenclatural pour Taxonomy.

Ensuite rechercher les espèces bactériennes souhaitées :

Lactococcus

Mycobacterium avium

Mycobacterium tuberculosis

Mycobacterium smegmatis

Mycobacterium bovis

Escherichia coli

Salmonella

Pour sélectionner les séquences :

si on veut sélectionner l'ensemble des séquences issues de notre interrogation, cliquer sur le plus (il devient moins) et en haut on voit apparaître le nombre de séquences sélectionnées (elles sont ajoutées à notre SeqCart).

si on veut sélectionner seulement certaines séquences, les cocher. Dans ce cas, l'affichage du nombre de séquences sélectionnées ne sera remis à jour que lorsque nous aurons fait une nouvelle action (soit rechercher une autre espèce bactérienne, soit récupérer les séquences).

Quand la sélection est terminée, pour récupérer les séquences, faire download. Choisir le format de sortie Fasta. Les séquences seront récupérées alignées (ici suivant un modèle d'alignement bactérien) et les gaps communs auront été éliminés (cf. options du download).
Après avoir renommé les séquences, on peut directement utiliser showalign.

Préparation des fichiers d'alignement en format Fasta pour les séquences des gènes lacZ et eae (intimin)

Récupération des séquences du gène lacZ

Faire une interrogation sur le site de l'EBI à l'aide du logiciel SRS. On va réaliser l'interrogation en passant par UniprotKB. On restreint la recherche aux enterobactéries. Visualiser les résultats et refaire la requête en utilisant Extended query pour éliminer les séquences partielles trop courtes. Ensuite faire le lien vers la section coding sequences de l'EMBL. Verifier de nouveaux si dans les séquences ADN récupérées, il n'y aurait pas des séquences partielles. Pour obtenir les informations sur la taille de la séquence (on a que les accession numbers), changer le Display et choisir SeqSimpleView. Les éliminer. On doit obtenir 89 séquences.
Sauvegarder les séquences en format Fasta, les renommer puis réaliser l'alignement avec Muscle. Vérifier la sélection par la construction d'un arbre de parenté.

Récupération des séquences du gène codant pour l'intimin

Utiliser la section coding sequences de l'EMBL.
Première requête :
Gene name EAE
Taxon Enterobacteria
Description intimin

On doit récupérer 482 séquences dont plusieurs sont partielles (indiquer dans la description). Pour supprimer ces séquences partielles lors de l'interrogation :
Deuxième requête :
Gene name EAE
Taxon Enterobacteria
Description intimin ! partial (recherche dans la ligne description le mot intimin et élimine les entrée qui ont partial en plus)

Résultats 158 séquences.