Récupération des séquences du gène mutX.
Utiliser le logiciel d'interrogation des banques de données SRS sur le site de l'EBI, dans Databases, Database Browsing
Première étape : choisir la banque de données qui sera interrogée (onglet Library page)
Deuxième étape : construire sa requête (onglet Query form)
Deux possibilités :
- On choisit directement la section coding sequences de
l'EMBL. Dans ce cas, l'extraction des séquences en format Fasta,
une fois la requête réalisée est directe.
- On choisit de partir des séquences
protéiques (si pas de champs d'interrogation associés aux
entrées de la section coding sequences de l'EMBL), donc on choisit
UniprotKB. Dans ce cas, une fois la requête
réalisée, pour avoir accès aux séquences
nucléotidiques correspondant aux entrées
protéiques, cliquer sur LINK (ce qui permet de faire un lien
vers des données apparentés). On doit alors choisir la
banque de données avec laquelle on veut établir le lien,
donc ici la section coding sequences de l'EMBL, et ensuite on
réalise la recherche en cochant (Find related
entries).
Dans les deux cas, pour obtenir les séquences en format Fasta:
- choisir Save, puis File text, et le format
Fasta2Seqs. Vérifier le nombre de séquences à récupérer (Number of entries to download).
Quand les séquences ont été
récupérées, modifier le nom pour enlever le |
qui enacdre le numéro d'accession de chaque séquence. Donc faire Remplacer | par rien.
Première analyse :
Pour analyser et nettoyer votre jeu de données (enlever les
séquences partielles, les séquences trop divergentes, les
séquences redondantes car même séquence dans
différentes souches) réaliser:
- un alignement multiple
- une construction d'arbre
Alignement multiple :
Utiliser Seaview. Par défaut le logiciel utilisé pour
aligner les séquences est muscle (cf alignment option). Si vous
avez besoin d'installer Seaview, il est disponible sur le site du
Pôle Bioinformatique Lyonnais (PBIL).
Remarque : alternative
Aller sur le site de l'Institut Pasteur : Recherche,
Logiciels et banques de données, Logiciels pour la Biologie,
Alignement multiple. On choisira le logiciel muscle.
On changera le format de sortie pour choisir le format Clustalw ainsi
que le nom du fichier résultat pour que celui ci soit explicite.
Sauvegarder l'alignement obtenu
Construction de l'arbre :
Si vous travaillez avec Seaview, vous pouvez réaliser l'arbre
avec le même logiciel. Sinon charger l'alignement dans Seaview.
Réaliser un arbre en choisissant la neighbor joining method (NJ)
(méthode basée sur les distances) ou la version plus
adaptée pour les séquences biologiques BioNJ. Il faut
donc choisir
une distance, pour l'ADN on prendra Kimura 2 parameters. Faire environ
100 bootstrap, cela suffit pour l'analyse que l'on veut faire.
Analyser l'arbre pour nettoyer le jeu de données (garder un seul
représentant pour les séquences qui apparaissent
très similaires (pas de branches, ou branches très
courtes sur l'arbre les séparant), supprimer les séquences
trop divergentes (longues branches sur l'arbre) dont la
récupération peut être par exemple due à des
erreurs potentielles d'annotation.
Modifier votre jeu de données en conséquence.
Remarque : la
construction de l'arbre peut être réalisée
directement sur le site de l'Institut Pasteur. Une fois l'alignement
multiple obtenu, en dessous de la fenêtre de résultats, un
menu déroulant à côté de "further analysis"
peut être utilisé pour choisir l'analyse suivante que l'on
veut réaliser à partir du fichier de sortie obtenu
à l'étape précédente. La première
étape pour construire l'arbre est de calculer la matrice de
distance entre les séquences alignées. Ceci sera
réalisé grâce au programme dnadist. Choisir
également la distance désirée (Kimura 2
parameters). Pour réaliser des bootstrap, aller dans bootstrap
option, cocher la case perform a bootstrap before analysis,
choisir bootstrap comme resampling method, 100 comme nombre
de replicates et un chiffre impair pour la graine. Une fois, la matrice
de distance obtenue, choisir neighbor comme further analysis. Dans la partie Bootstrap options, cocher la case Analyse multiple data sets, le nombre de data sets correspond au nombre de replicates demandés à l'étape dnadist, choisir un chiffre impair pour la graine, et cocher la case compute un consensus tree (sinon
on obtiendra plusieurs arbres et non pas un seul avec la valeur des
bootstraps pour chaque branche). Pour dessiner l'arbre, sous la
fenêtre qui affiche l'arbre en format parenthésé
choisir drawgram pour tracer l'arbre. On choisira le format de sortie et comme Tree style Phenogram.
(ex de format, après les : on a la valeur du
bootstrap, problème ici de l'implémentation, on ne peut
pas avoir simultanément la valeur de la longueur de la branche
et celle du bootstrap comme avec phylo_win par exemple)
((((AE009948.1:100.0,((((AE005672.3:100.0,(CP000387.1:100.0,CP000725.1:100.0):100.0):100.0, AM946016.1:100.0):90.0,ACKZ010000:100.0):94.0,(AM406671.1:100.0,AE005176.1:100.0):100.0):48.0):26.0, AE014133.1:100.0):46.0,AE004092.1:100.0):100.0,AM946015.1:100.0);
On obtient une image de l'arbre, on ne pourra donc pas manipuler l'arbre comme on peut le faire sous Seaview.
Deuxième analyse : Sur le jeu de données nettoyé
Conseil : mettre les deux séquences de L. lactis lactis et L. lactis cremoris en premier dans votre fichier de séquences avant de faire l'alignement.
Refaire l'alignement multiple avec muscle sur ce nouveau jeu de données.
Pour analyser plus facilement l'alignement multiple et trouver les
régions de la séquence d'intérêt qui n'est
pas conservée dans les autres séquences des gènes
mutX et qui serviront pour définir les sondes, utiliser le
programme showalign dans
further analysis (si vous travaillez sur Pasteur).
Si vous avez utiliser Seaview pour faire l'alignement, sauvegarder le
résultat en format fasta. Puis utiliser showalign qui
est disponible dans la suite EMBOSS. Cette
dernière est installée sur la plateforme bioinformatique de Toulouse.
Choisir votre séquence d'intérêt
comme séquence de référence (numéro de la
séquence dans l'alignement). Le sauvegarder (outfile)
Dégager les régions uniques de votre séquence d'intérêt.
Troisième analyse : vérifier l'unicité de la région sélectionnée.
Pour vérifier que la région
sélectionnée n'est bien présente que dans le
gène de l'espèce ou la souche d'intérêt on
va réaliser une recherche de similarité sur les banques
de données d'acides nucléiques en utilisant la suite
Blast. Aller sur le site serveur du NCBI, et réaliser une
recherche avec Blast. On choisira comme banque de données, la
banque non redondante nr et on effectuera un blastn.
En fonction des similarités trouvées, vous pourrez
conclure à la pertinence ou non de garder cette région
pour faire un design de sonde.
|