Pour mémoire : Blast et Fasta sont deux programmes qui comparent une séquence requête à l'ensemble des séquences d'une banque de données. Ils sélectionnent les séquences ressemblant le plus à la séquence requête en se basant sur la pertinence statistique des alignements, calculée sous la forme d'une e-value.
Soit un alignement entre la séquence requête et une séquence de la banque ayant pour score S, la e-value représente le nombre attendu de séquences de la banque ayant un score au moins égal à S avec la séquence requête. Donc, les e-values les plus faibles sont les meilleures. Attention, les e-values dépendent de la taille de la banque puisque plus la banque est grande, plus on a de chance d'avoir des séquences ayant un score d'alignement d'au moins S avec la séquence requête.
Nous allons rechercher la séquence d'un ARNm de l'enzymes de conversion de l'angiotensine I en angiotensin II, aussi appelée ACE :
>ACE aatttaaaaatgaatttaataaatttttcatacttaaatttgctttttggtgccggtttatttagcgttttagaaagcgc tacaatattaaataccgaatcggatgctaaaaaatggctgacaacgtataacgatgaagccggaaaatatatttacgatg caactgaagcagaatggaattacaacaccaacctgactgatcacaatttaggaatttctattaaaaaatcaaatgatttg gctacttttacggaacaaaaggcaatcgaggccaataaaaaatttgtatggaaaaattttactgatccacttttgaaaag agaattttcaaaaataactgacattggtactgctagcctttcagatgaagactttcaaaagatgtcaggtttgaactctg atctaacaaaaatttacagcactgcaaaagtttgtaacaagcctaacgacccatctggaaaatgctatcctttagatcct gatttgtccgacataatctccaagtcaaacgatctcgaggaattgacctgggcatggaaaggttggagggatgcgtctgg caaacatatgcccgataaatatgatgaatttgttcaactgctcaacaaagctgctaagattcatggatatgaagacaacg gggattattggaggtcctggtacgagtcccccacgttcagaaaggattgtgaagatttgtggcaggagatcaaaccattc tacgaacaactgcatgcatacgtcagaaggaagctgcagaagaagtatccccaaattgcattccccaaggaggggcccat ccctgctcatctgctcggcaacatgtgggcccaatcgtgggagaacatagagtacttgttatgggcccaatcgtgggaga acatagagtacttgttaaggcccgctcctgaccttcctagcatggacatcactgaggaactcgtcaaacagaactacacg gcattgaaactcttccaactgtcggacacatttttcaaatccttgggtctcatccagatgcctcagccgttttgggaaaa gtcgatgatcgagaaaccagctgatcgggatgtgttcagaatcaaacaatgcgtttgccatgcgtcagcctgggacttct acaatcgcaaggatacggttgtggacatgcactggttcatgacgactcaccatgagatgggacacatcgaatactacctc cactacaaggaccaacccatcagtttcagatctggcgctaatccaggatttcatgaggccattgccgatattgcatcact gtcagtggccacacctgaatatatgcaatccgtcagcctgttgcctaatttcactgacgatccaaatggcgatttaaact tcttaatgaaccaagccttaacgaaggtggccttcctaccattcggttacctgatcgaccagtggagatgggacgtgttc tcgggagatacccctcgaccaaaatacaactccaagtggtggcacaacaggtgtaagtaccagggcatatatcctccagt gaaaaggtcagagcaagattttgatgccggttccaagttccatgtacccaacaacactccatacatcaggtactttgttg ctcacgtcatccaattccaattccatgaagccctgtgcaaggctgccaacaacagcagacctctacatagatgtaacatc gccaattccaaggaagctggagagaaactggctgaattgatgaaatctggatcttcaattccgtggcctaaagttctaga aaatcttactggatcggaaaaaatgtcagcgaaatctctcatggcctattacaaaccgttgatcgattggcctgaaaaaa gaaaaccaagggcagaaaattggatgggaggaaaaatgtcctcctggatcatttgaaccatgaaattatttatttgattt tatgtcatttcataatttttctaccacttttttaataaacttaggtgcctattgaatatgttcttgcaatttgaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
BlastN : comparaison d'une séquence d'ADN à une banque ADN. J'ai fait tourner BlastN avec les options par défaut, voici les résultats.
Faites maintenant tourner Blast en limitant les données de la banque aux entrées issues de la poule. Pour cela, utilisez le menu déroulant qui se trouve derrière la phrase : "or select from" (dans la partie "Options for advanced blasting").
BlastX : comparaison d'une séquence requête ADN à une banque protéique. Dans ce cas, la séquence requête est traduite à l'aveugle dans les six phases. Les six peptides obtenus sont alignés avec les protéines de la banque, y compris les codons stop qui sont remplacés par une étoile.
Utilisez BlastX avec la séquence de ACE et les options par défaut.
Nous supposons avoir extrait un fragment du génome ..... que l'on a séquencé. Le fragment est le suivant :
>Azotobacter vinelandii AvOP ctg20, whole genome shotgun sequence. tgcctgcaggaagtgatgggcgcgcacgaagttcatccgctgcatgtggaaaactggccc gatacctcgcactacgagtttctcgccgacactatgtggagcgattttgcctacggtcgc aatgccgtatacccggaagggcatcacggcaacgccgtactgtcgcgttatcccattgaa cattatgagaatcgcgatgtttcggtcgatggtgcggaaaagcgcggcgtgctctactgc cgcattgtgccgccgatgaccggaaaagcgattcatgtgatgtgcgtacatctgggcctg cgtgaggcgcaccgtcaggcgcagcttgcgatgctcgccgaatgggtgaatgagctaccg gacggcgaaccggtattggtggcgggtgatttcaatgactggcggcaaaaagctaatcat ccgttaaaagtgcaggccggactggatgagatttttacccgcgcccacggacgcccggcg cgcacgtttccggtgcaatttcctctactacgactggacaggatctacgtcaaaaatgcc agcgccagcgcgccaaccgcgttgccgctgcggacatggcgacacctttctgatcatgcc cctttaagtgcggagattcatttatgaaatgtagctggcgcgaaggcaataagatccagt tgctggaaaacggcgagcaatattatcccgcggtgtttaaggcgattggcgaggcaccag aacgcatcattcttgaaacgtttatctggtttgaggatgacgtccgcaaacaactgcatg cggcactactggcagcagcgcaacgcggggttaaagcggaagtcttgctggatggctacg gttcgccggatctcagcgatggagttgtcaatgaactgacggcagctggcgtagtgttcc gctactacgatccccgccctcgcctttttggaatgcgcaccaaggtggttcgcccgatgc attccaaaattgtggtggatcacgcccgttttgcctttattggcgggctgaactaccccg ccgagcatatgtccagctaccggtccgaagctaaacaggattacccggtacgccttgaag ggctcgatgtccaacatattttccagttgagctgaaaacctgcctga
Nous allons étudier les ORFs qui sont présentes sur la région extraite du contig pour essayer de localiser un gène. Pour cela, nous allons utiliser le logiciel Gene Finder du NCBI. Il donne une représentation graphique de la position des ORFs (Open Reading Frames) sur la séquence. Les 6 phases de lecture sont représentées par les grands rectangles blancs. Les séquences qui font plus de 100 nucléotides entre un codon de terminaison et le codon d'initiation (Cinit) le plus éloigné sont indiquées par un rectangle bleu.
Lorsque l'on clique sur un rectangle bleu, la séquence ADN correspondant, ainsi que sa traduction apparait. Les Cinit potentiels (ATG) sont colorés.
Un moyen de choisir quel est le véritable Cinit est de rechercher si un site RBS se trouve entre 5 et 13 nucléotides en amont du codon. Voici les séquences consensus d'un RBS : GGAGG ou AGGAA. Vous utiliserez la visualisation "SixFrames".
Pour affiner la recherche il faut traduire l'ORF en séquence protéique et faire une recherche dans les banques de séquences protéiques afin de rechercher une séquences homologues. Si une séquence homologue existe alors l'ORF prédite est probablement réelle. Cela peut être fait en récupérant la séquence protéique correspondant à l'ORF choisie (bouton view de GeneFinder) puis en faisant un blastp. Cette option est directement proposée par GeneFinder.
Le logiciel GeneMark est capable de prédire les bornes des gènes présents sur une séquence d'ADN, même s'il n'a pas un jeu d'apprentissage disponible sur cette séquence. Pour cela, suivez le lien 'Heuristic models' qui se trouve dans la partie 'Gene Prediction in Bacteria and Archea '.
Nous allons rechercher la structure d'un gène présent sur une portion du génome de Saccharomyces cerevisiae. Ce gène comporte des introns. Voici la séquence à étudier :
>cekoi AGTTTTAAGTGCGGCGCTTTAGCTTCAAACTGACTCATGGTTGCGTAAAAACATGGTTGCTTTTTGTCGT TTTCCTCGAAAGGCTTTACCTTTTCATTAAGCCGCTCCATTTTAAAATGTTTTAATAAATCCACTTTTTT CCGGCGCATAATGGATCCAGAAAGGAACTGGCAACTAAATCCGTACATTTCTGAAATTATTTCAGTTCGC AGATTATTTTCTCAGTTTTACCGTATATTCTTATGTATTACAGTTGAGGTACCCACACGCGCACTTGAAA AGTATATAAAAGTGAAATATTTCAGAGCTCTTCCTATTGCTTTTTCAATAGAGGCTTAAATCTTCCTCGT TTGTAGAGTAAGTAGACCCATATTACAAATCTCCATCAACGTCATAATGTCCACTGAGTATGTCAAAAAC TACAAATACGACCTTATTTGGTAACTAGTTTGTTGTCGGTTACATCTGAATTTGAAGTACCCAAATTGAT AATACTTCAGGAAAAGTTAACGCACATTCAAAACGTGTTTTTTTACAATAACCTATGGTGATCGAACCTA ATTATAAAAAGAAGCACTTGAAGTAGTTTATCTTCTTCAAGTACCTTTCGTAGGGGATTTTCATTTTTAA TGAACAAAGGCATTGTTTGTTAGTATCTATTACTTGTAATACACCGATAATTTCATTGATAGATATTTCC AGCATGTCTCTGCATCTCCCTTCCATCGAATGAAAAGTGGTGTTTTCAATTCGATGTAACTGAATCTTTG TTCTTAATATGACTTCTTTGCTAACATTTTTTTCATTTTTGAATAGAAAAATCTTGACTCCTGAATCTCA ATTGAAGAAGACTAAAGCTCAACAAAAGACTGCAGAACAAATTGCTGCAGAGAGAGCTGCCCGTAAAGCC GTATGTTCATTTACCATGTTTGAAAGATATTATATCATTCCTTTTACAGTGAGTTCACAAAAATATAATA CTTTGTTAAAGAGATCTTTTCTCGGTTTTACATTTCCTTGGCATTTGTTAGTCGCGAACAATTTTCACTT TTTGCAACGTTTTTTTTCTTTCTTAATGATGAAAACTATTCCTTATTCTCGACTAGTCTTTGACAATGCT GTCGTTTAATCACCATCTTTCGGCTGACTAGTAAAGAAAATGCAAGAGTGAGAATATGCCAAGAATCTGC AAGATTGAGTTAAGTTTTCTTAGAAAGTTTTATCGTGCATATTTTTCACTAAATTGGAATGACGTTAAAA CCAAAAGTACTGATCTTACTAACATTAATCAAAAATTCTTGATGAATATTATTTTAGGCTAACAAGGAAA AAAGAGCTATTATTTTGGAAAGAAACGCCGCTTACCAAAAGGAATACGAAACTGCTGAAAGAAACATCAT TCAAGCTAAGCGTGATGCCAAGGCTGCTGGTTCCTACTACGTCGAAGCTCAACACAAGTTGGTCTTCGTT GTCAGAATCAAGGGTATTAACAAGATTCCACCTAAGCCAAGAAAGGTTCTACAATTGCTAAGATTGACAA GAATCAACTCTGGTACATTCGTCAAAGTTACCAAGGCTACTTTGGAACTATTGAAGTTGATTGAACCATA CGTTGCTTACGGTTACCCATCCTACTCTACTATTAGACAATTGGTCTACAAGAGAGGTTTCGGTAAGATC AACAAGCAAAGAGTTCCATTGTCCGACAATGCTATCATCGAAGCCAACTTGGGTAAGTATGGTATCTTGT CCATTGACGATTTGATTCACGAAATCATCACTGTTGGTCCACACTTCAAGCAAGCTAACAACTTTTTGTG GCCATTCAAGTTGTCCAACCCATCTGGTGGTTGGGGTGTCCCAAGAAAGTTCAAGCATTTCATCCAAGGT GGTTCTTTCGGTAACCGTGAAGAATTCATCAATAAATTGGTTAAGGCTATGAACTAACATTATTCCGTGT GGCAATAATCTCAATGTATAATAAATAATATTTCTCTTCATATATATGACCGGACTCGTAATAGAATAAT TGACTGGAACAATAGCGCATATTGCTTTGCTTCTATACGTAGTTGAGTTTTCACTCACGTACAGCTAGAG AATCTCACATAGGAGTATCCCTGTAGTTAGTTCCGCGCGGTTCGATCACGGATATACTTTCAACAATGGC AGTATGAAAGCCTGTTATAAAAAAGAAGGAAACAATAAACGAAGTGCTTTTTTGCCTCCTAAATTATTCA ATTTGACAACTGATTTCCAGCCATTCATTATTCAGTGAGGAGCGACA
Les EST sont des fragments d'ARNm. En utilisant plusieurs EST, il est possible de reconstituer au moins une partie de l'ARNm complet, y compris les régions 3' et 5' UTR (UnTranslated Region).
Sur le site NCBI, comparez la séquence cekoi aux EST de S. cerevisiae à l'aide de BlastN (section "Nucleotide", lien "Nucleotide-nucleotide BLAST (blastn)"). Pour cela, il faut choisir la valeur "est" dans le menu déroulant situé à côté de la phrase "Choose database" et préciser que l'on consulte uniquement les séquences issues du génome de Levure en choisissant "Saccharomyces cerevisiae [ORGN]" dans le menu déroulant situé après la phrase "or select from:".
Les alignements donnés par Blast ne concernent pas toujours les séquences entières des EST. Pour affiner certaines bornes, vous pouvez utiliser le logiciel SIM4 qui est dédié à l'alignement d'une séquence d'ADNc à une séquence génomique.
Cette fois, nous allons utiliser BlastX (section "Translated", lien "Translated query vs. protein database (blastx)").
En fait, on ne retrouve pas la protéine de la banque en entier. Pour essayer de trouver un (des) exon(s) supplémentaire(s), il faut changer la matrice de substitution utilisée. On va passer de la matrice Blosum62 à la matrice Blosum80 qui est plus stringeante, c'est-à-dire qu'elle autorise moins de mutations. Il faut également décocher l'option "Low complexity" qui masque les régions de faible compléxité. Or, le début de notre gène code pour une région de faible complexité.
Pour mieux prédire les bornes des exons, utilisez le logiciel Wise2 (dédié à l'alignement d'une protéine à un fragment de génome) pour aligner cekoi à la meilleure protéine trouvée par Blast.
En fait, il manque toujours les 4 premiers acides aminés qui ne sont pas alignés avec la séquence génomique. On peut essayer de chercher à la main ces acides aminés dans les 3 phases de lecture du brin codant pour cekoi. Pour cela, nous pouvons utiliser le logiciel de traduction proposé par infobiogen.
Pour connaître les exons de cekoi, cliquez ici