La page d'accueil de BLAST vous guide suivant les expériences que vous souhaitez réaliser. Vous pouvez :
Pour le TP nous choisirons sauf indication contraire les liens de la section Basic BLAST.
Plusieurs versions du logiciel sont proposées en fonction de la nature de la séquence requête et de celle de la banque interrogée :
Une interface dédiée aux séquences courtes avec peu d'erreurs : les paramètres sont adaptés à ce type de données.
Compare une séquence nucléique traduite dans les 6 phases de lecture à une banque protéique : utile pour savoir si une séquence nucléique code une protéine et éventuellement localiser les positions de la partie codante.
Compare une séquence protéique à une banque nucléique traduite dans les six phases : utile pour identifier le gène et/ou l'ARNm qui code une protéine.
Compare une séquence nucléique traduite dans les six phases à une banque nucléique traduite dans les six phases (tBlastX) : utile pour comparer une séquence nucléique dont ont ne sait rien à un génome non annoté, ou quand BlastN ne donne pas de résultats. A utiliser avec modération car très long !
Cet exercice porte sur l'analyse de séquences d'enzymes de conversion de l'angiotensine I en angiotensin II, aussi appelées ACE. Ci-dessous, la séquence nucléotidique de l'ARNm de l'ACE de sangsue :
>Sangsue, ACE
aatttaaaaatgaatttaataaatttttcatacttaaatttgctttttggtgccggtttatttagcgttttagaaagcgc
tacaatattaaataccgaatcggatgctaaaaaatggctgacaacgtataacgatgaagccggaaaatatatttacgatg
caactgaagcagaatggaattacaacaccaacctgactgatcacaatttaggaatttctattaaaaaatcaaatgatttg
gctacttttacggaacaaaaggcaatcgaggccaataaaaaatttgtatggaaaaattttactgatccacttttgaaaag
agaattttcaaaaataactgacattggtactgctagcctttcagatgaagactttcaaaagatgtcaggtttgaactctg
atctaacaaaaatttacagcactgcaaaagtttgtaacaagcctaacgacccatctggaaaatgctatcctttagatcct
gatttgtccgacataatctccaagtcaaacgatctcgaggaattgacctgggcatggaaaggttggagggatgcgtctgg
caaacatatgcccgataaatatgatgaatttgttcaactgctcaacaaagctgctaagattcatggatatgaagacaacg
gggattattggaggtcctggtacgagtcccccacgttcagaaaggattgtgaagatttgtggcaggagatcaaaccattc
tacgaacaactgcatgcatacgtcagaaggaagctgcagaagaagtatccccaaattgcattccccaaggaggggcccat
ccctgctcatctgctcggcaacatgtgggcccaatcgtgggagaacatagagtacttgttatgggcccaatcgtgggaga
acatagagtacttgttaaggcccgctcctgaccttcctagcatggacatcactgaggaactcgtcaaacagaactacacg
gcattgaaactcttccaactgtcggacacatttttcaaatccttgggtctcatccagatgcctcagccgttttgggaaaa
gtcgatgatcgagaaaccagctgatcgggatgtgttcagaatcaaacaatgcgtttgccatgcgtcagcctgggacttct
acaatcgcaaggatacggttgtggacatgcactggttcatgacgactcaccatgagatgggacacatcgaatactacctc
cactacaaggaccaacccatcagtttcagatctggcgctaatccaggatttcatgaggccattgccgatattgcatcact
gtcagtggccacacctgaatatatgcaatccgtcagcctgttgcctaatttcactgacgatccaaatggcgatttaaact
tcttaatgaaccaagccttaacgaaggtggccttcctaccattcggttacctgatcgaccagtggagatgggacgtgttc
tcgggagatacccctcgaccaaaatacaactccaagtggtggcacaacaggtgtaagtaccagggcatatatcctccagt
gaaaaggtcagagcaagattttgatgccggttccaagttccatgtacccaacaacactccatacatcaggtactttgttg
ctcacgtcatccaattccaattccatgaagccctgtgcaaggctgccaacaacagcagacctctacatagatgtaacatc
gccaattccaaggaagctggagagaaactggctgaattgatgaaatctggatcttcaattccgtggcctaaagttctaga
aaatcttactggatcggaaaaaatgtcagcgaaatctctcatggcctattacaaaccgttgatcgattggcctgaaaaaa
gaaaaccaagggcagaaaattggatgggaggaaaaatgtcctcctggatcatttgaaccatgaaattatttatttgattt
tatgtcatttcataatttttctaccacttttttaataaacttaggtgcctattgaatatgttcttgcaatttgaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
Suivez le lien nucleotide blast de la section Basic BLAST. Copiez-collez la séquence ci-dessus dans la boîte correspondante, choississez la banque de données (database) Other : Nucleotide collection (nr/nt), sélectionnez le programme Somewhat similar sequences (blastn) et lancez la requête.
Combien de séquences de la banque ressemblent à la nôtre (voir le nombre de 'hits') ?
Est-ce que les alignements obtenus semblent pertinents d'un point de vue biologique ?
Est-ce que les séquences trouvées font partie de la famille des ACE ?
La représentation graphique des résultats indique les régions de la séquence requête (échelle) qui s'alignent avec les séquences de la banque (rectangles colorés). Seuls les rectangles reliés par un trait noir font partie de la même entrée de la banque.
La séquence dont nous disposons est-elle présente dans la banque ?
Combien de régions communes entre la séquence de numéro d'accession NM_000789 et celle de la sangsue sont représentées sur le graphique ? (Faites glisser le curseur sur les traits colorés pour que le numéro d'accession s'affiche juste au dessus de Color key for alignment scores)
Combien de régions sont réellement communes entre les deux séquences ? (Voir les alignements en cliquant, soit sur un des traits colorés associés dans le graphique, soit sur le score de l'alignement dans le tableau des résultats situé sous le graphique)
Pourquoi y-a-t-il des différence ?
Que signifie les termes "Total Score" et "Query coverage" dans le tableau des résultats ?
Quel est le score obtenu pour la séquence de l'homme NM_000789 ?
Quelle est la e-value correspondante?
Comment varie la e-value en fonction du score (comparez pour différents alignements de cette séquence) ?
Sauvergarder cette page résultat au format page web complète (ou conservez la dans un onglet) : nous en aurons besoin par la suite dans l'ensemble du TP.
Faites maintenant tourner BLAST en limitant les données de la banque aux entrées issues de l'homme. Pour cela entrez Homo sapiens dans le champ approprié du formulaire d'interrogation.
Est-ce que l'on retrouve la séquence d'ACE NM_000789 ?
Est-ce que le score d'alignement a changé ?
Comment a varié la e-value ?
Pourquoi y t-il eu changement de e-value sans changement de score ?
Les régions de faible complexité sont des parties de séquences composées de peu de lettres différentes. Par défaut, dans Blast, l'option "Low complexity" est active (cochée). Les régions de faible compléxité présentes dans la séquence requête sont remplacées par des N dans le cas de l'ADN et par des X dans le cas des protéines. Ces régions ne sont donc pas alignées avec les séquences de la banque. Nous allons étudier l'intérêt de cette option.
Vous pouvez observer la région de faible complexité présente dans la séquence de sangsue en faisant un dotplot de la séquence contre elle-même à l'aide d'un dotplot.
Utilisez de nouveau BLAST avec la séquence de sangsue contre toutes les séquences de la banque (ne plus se limiter à l'Homme), mais en décochant l'option "Low complexity regions" dans "Algorithm parameters".
Les résultats obtenus sont alors très différents des précédents. Pourtant, la séquence requête et la banque sont les mêmes.
Combien de séquences de la banque ressemblent désormais à la nôtre ?
Quelle est la partie de notre séquence la plus souvent detectée ? Sur quel type de séquences "matche" t'-elle ? A votre avis pourquoi ?
Quelles entrées, parmi celles du précédent graphique de
résultats, n'apparaissent alors plus dans les 100 premiers hits lorsque l'on desactive les
filtres de faible complexité. (Utilisez CTRL + F pour faire une recherche) ? A votre avis, où sont-ils désormais ?
Dans ce cas, la séquence requête est d'abord traduite à l'aveugle dans les six phases de lecture par BlastX. Les six peptides obtenus sont ensuite recherchés et alignés avec les protéines de la banque (y compris les codons stop des peptites requêtes qui sont remplacés par une étoile).
Lancez un BlastX avec la séquence de sangsue et les options par défaut.
Combien de séquences de la banque ressemblent à la notre ?
Quelle est la e-value des 2 premières séquences de la liste ?
Celle des 2 dernières ?
Comparez les valeurs trouvées à celles obtenues avec BlastN.
Est-ce que plus de séquences de la famille des ACE sont trouvées (ne comptez pas!) ?
De quel organisme provient la première séquence trouvée ?
Trouvez dans les résultats, la protéine ACE correspondant à la séquence humaine.
Combien de hits y a-t-il sur cette séquence protéique.
Comparez cet alignement avec celui obtenu précédement à l'aide de BlastN.
Qu'observez-vous (Evaleur, couverture du/des alignements, qualité du résultat)?.
Faites une requête à l'aide de BlastN ("nucleotide blast") contre la banque nr avec le gène de
MAKORIN1 chez Seriola quinqueradiata (conservez la fenêtre pour la suite).
Changer maintenant, dans "Algorithm parameters", la taille des mots exacts recherchés
afin d'être plus spécifique.
[résultat pour w=7,résultat pour w=11, résultat pour w=15]
Quelle taille choisissez-vous ?
Comparez les résultats à ceux obtenus avec la taille de mots par défaut. Qu'observez-vous ?
Quelle est la valeur par défaut de ce paramètre. Que cela signifie-t-il ?
Changer maintenant la valeur de Expect threshold pour être plus spécifique.
[résultat]
Quelle valeur choisissez-vous ?
Comparez les résultats à ceux obtenus avec la valeur par défaut. Qu'observez-vous ?
Chercher comment modifier ces paramètres.
Quels sont les paramètres par défaut (pénalité d'ouverture et d'extension de gap, score de match et de mismatch) ?
Faites une requête BlastN contre la banque nr avec le gène MAKORIN1 chez Seriola quinqueradiata avec les pénalités de gap les moins pénalisantes (conservez la fenêtre pour la suite).
[résultat]
Quels différences observez-vous par rapport à la requête avec les paramètres par défaut ?
Cherchez les hits sur le gène MAKORIN chez le cochon (Sus scrofa). Expliquez les résultats obtenus avec les deux jeux
de paramètres.
Lancez une requête MegaBLAST avec le gène de MAKORIN1 chez Seriola quinqueradiata.
[résultat]
Quelles sont les différences avec BlastN ?
Observez les résultats obtenus sur les séquence de Zebrafish, pourquoi ne voit-on pas les mêmes hits avec MegaBLAST ?
Voici une protéine de E. coli :
>trpc
MMQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASP
SKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFQGSFNFLPIVSQIAPQPILCKDFIID
PYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAK
VVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSAL
MAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEV
MAAAPLQYVGVFRNHDIADVVDKAKVLSLAAVQLHGNEEQLYIDTLREALPAHVAIWKAL
SVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQSLGNVLLAGGLGADNCVEAAQT
GCAGLDFNSAVESQPGIKDARLLASVFQTLRAY
Faites tournez PSI-blast dessus sur la banque NR.
Lors de la première itération, quelles sont les fonctions protéiques trouvées ? Est-ce qu'il y en a plusieurs ? Enregistrez la page web complète dans votre répertoire de travail.
Lancez la deuxième itération (bouton disponible sur la page de résultat obtenue lors de la première itération, sous le diagramme des hits).
Est-ce que les résultats sont différents ? D'après-vous, pourquoi ? Quelles sont les séquences qui sont apparues ? Celles qui ont disparues ?
La séquence que nous allons étudier provient d'un poisson (dont vous chercherez la description sur fishbase). C'est la copie ADN d'un ARNm.
>Gasterosteus aculeatus cDNA clone CLJ188-G12 5', mRNA sequence
AATTGGACATGACAGTTCGGTCCGGAATCCCGGGATGGAGATGCCATCCGTTGGATCCGGATCTTCAGAA
GATCATGGCGGAGTCCAGGGATTATGACGAACTGCTGTTTGCGTGGAAAGGATGGAGAGATTCTGCCGGC
AAAGTGCTTCGCCAGGATTACAAGAGATATGTTGAACTGGCCAACATGGCCGCCAAACTCAACGGTCACT
CCGACAACGGGGCTTCCTGGCGCTCCCTGTATGAAACCCCCAGCTTCGAGGAGGACCTGGAGGCTCTGTG
GAAGGAGCTGGAGCCGCTCTATCAGAATGTGCACGCCTATGTGCGCAGGGCCCTGTACAAAAAGTATGGC
TCCCAGCACATCAACCTGAAGGGAGCCATCCCGGCTCATTTGCTGGGCAACATGTGGGCCCAGACGTGGT
CGGGCATAATGGATTTGGTCATGCCCTACCCGCATGCCACGCAGGTGGACGCCACGCCCGCCATGGTTTC
ACAGGGCTGGAACGCCACCAGAATGTTCCAGGAATCCGACAATTTTTTCACCTCTCTGGGTCTTTTGCCA
ATGCCCCAAGAGTTCTGGGACAAATCCATGCTAGAGAAGCCGTCTGGTGGACGCCAGGTGGTGTGCCACG
CCTCCGCATGGGACTTCTATAACCGAAAAGACTTCAGGATCAAACAGTGCACCGTGGTGACTATGGACGA
TTCCGCGACGGAGCCAACCCCGGCTTCCACGAGGCCATTGGCGACGTGTTGGCCCTGTCAGTGTCTACGC
CCTGATCACGGCGCACCATGAGATGGGCCACATTCAGTACTTCCTGCAGTACAAAGACCAGCCCGTGTCC
CCAAACACCTGCAGAGCATCGGCCTGCTGGACAAAGTGGAGAGCAACCATGAGAGCGATATCAACTTCCT
GATGAGCATGGCGCTCGACAAGATCGCCTTCTTACCCTTTCGCTACCTGATGGATCAGTGNAGATGGAAG
GGTGTCGATGGNCGTATCCCATCGACTGAGTANCATAAAGAATGGNTGGAACTCAGAATGAAGTACCAGG
GCCTCTGTCCCACTGTAACCCGCACAGAGGAAGACTTCGACCANGTGCAAAAGTCACATCCCTGCTACGT
GCCATACGTGAAGAACTTTGTCACCTCATCATCAGGTCCAGGTTCCAAAGCTCTCTGGGATGCCCCAAAA
CGAAGGGGCCTGGAAACTGGAAATTTTAAATTCGGAAAACCCGGACCTCTTGCGGACGATGAAACCCGTT
TCTAAAACCTGGCCCGGGGAAA
Comparez ce cDNA (de l'épinoche) à la banque nucléique "nr/nt" en utilisant la version More dissimilar sequences (discontiguous megablast).
[résultat]
Est-ce que les séquences trouvées ressemblent vraiment à la séquence requête ? Est-ce que l'on a réussi à localiser l'ARNm sur le génome de Gasterosteus aculeatus ? Peut-on avoir une idée de la fonction de la protéine codée par l'ARNm étudié ?
Le génome de Gasterosteus aculeatus est en cours de séquençage: les données ne sont pas dans la banque "nr/nt", mais dans la banque "wgs" ("whole genome shotgun").
Interroger (toujours avec More dissimilar sequences, discontiguous megablast) les séquences de la banque "wgs" pour l'organisme Gasterosteus aculeatus.
[résultat pour tout WGS, résultat pour WGS limité à Gasterosteus]
Est-ce qu l'on parvient à localiser l'ARNm ? Peut on le positionner sur le génome ? Pourquoi cela n'est t-il pas possible ? Quel est le numéro d'accession et la taille du contig trouvé ? Pourquoi l'alignement entre l'ARNm et le contig est-il morcelé ? Notez sur le graphique les barres verticales noires entre les hits rouges indiquant que ces hits proviennent de la même séquence de la banque.
Nous allons faire une recherche sur le site Ensembl du cDNA contre le génome de Gasterosteus aculeatus afin d'obtenir plus d'information sur les positions prédites par Ensembl pour le gène complet.
Cliquez sur le lien BLAST/BLAT de Ensembl, donnez votre séquence, et choisissez l'espèce Gasterosteus aculeatus sur laquelle cette séquence sera localisée.
Sur quel chromosome le gène est-il présent ?
Dans la partie Alignment Summary, cliquez sur un des liens [C] en ne considérant que les alignement de séquences qui sont des "exons potentiels": Une fenêtre apparaît, donnant une Overview (en haut) suivie d'une Detailled view (en bas) de vos résultats sur un génome préassemblé de Gasterosteus aculeatus.
Dans quel sens est représenté le gène sur le contig ?
Comparez les positions des exons trouvés sur notre séquence ("BLAT/BLAST hits" en rouge) avec celles des exons prédits par Ensembl ("Ensembl gene" en marron).
Les hits principaux de notre requête sont-ils plutôt au début ou la fin du gène ?
En revenant sur l'interface du NCBI, comparez désormais la séquence cDNA à la banque protéique "nr", en choisissant le bon programme.
Est-ce que les résultats sont plus satisfaisants (meilleure similarité) que ceux
obtenus avec le cDNA contre la banque nucléique ?
D'après-vous, pourquoi ?
Que peut-on apprendre sur la fonction de la protéine ?
Qu'est-ce que vous constatez en consultant les alignements obtenus (consultez par exemple le premier hit sur une entrée "Swiss-Prot" sp)?
Est-ce que la séquence étudiée contient une séquence codante complète ?