Au cours de ce TP, nous allons comparez des séquences biologiques à l'aide de différents logiciels.
Un dotplot est une comparaison visuelle de deux séquences. Une séquence est en abscisse, l'autre est en ordonnée.
Dans la version simple, si une ligne et une colonne contiennent la même lettre, un point est dessiné à l'intersection des deux colonnes.
Pour filtrer les résultats, il est possible de mettre un point pour la comparaison de deux fenêtres, c'est-à-dire deux fragments des séquence de même taille. Toutes les fenêtres d'une taille donnée présentes sur les séquences sont comparées deux à deux. Un score de comparaison est calculé. Par exemple, le nombre de nucléotides à la même position dans les fenêtres. Un point est dessiné pour une comparaison, seulement s'il dépasse un score seuil. Mieux, un niveau de gris peut-être affecté par intervalle de score.
Il existe un logiciel de dotplot interactif, Dotlet. Mais, il necessite JAVA pour fonctionner et JAVA n'est pas installé sur vos machines. Nous allons utiliser Dottup qui génère des dessins de dotplot.
Voici deux séquences :
AAGTCATTCGCACATCG AACACATCG
Comparez ces deux séquences à l'aide de Dottup. Avant de lancer le programme, précisez, dans "output Section", que le "graph" doit être au format "png" (à choisir dans un menu déroulant). Vous remarquerez qu'il est également demandé la taille des mots comparés. L'option par défaut est 10. C'est trop grand pour nos séquences. Pour commencer, nous allons prendre des mots de taille 2 qui est la valeur la plus petite autorisée.
Maintenant, nous allons filtrer le dotplot en ne demandant de n'afficher que les mots de 5 nucléotides communs aux deux séquences. Ainsi, les mots courts n'apparaîtrons plus.
Pour mémoire :
TGACTAG
:: :
TGG---G
Voici trois alignements semi-globaux obtenus à partir du couple de séquences précédant :
AAGTCATTCGCACATCG :: ::: AACACATCG AAGTCATTCGCACATCG :: ::: :: AACACAT-CG AAGTCATTCGCACATCG :: ::::::: AA--------CACATCG
Calculez le score de chaque alignement avec le jeu de paramètres suivant :
Pour mémoire : Lorsqu'un acide aminé est muté dans une protéine, cela n'affecte pas toujours sa fonction. Il est donc possible de considérer certains acides aminés comme équivalents, c'est-à-dire qu'ils peuvent être remplacés l'un par l'autre dans une protéine sans conséquence majeure. Mais, selon les protéines et selon l'emplacement de l'acide aminé dans la protéine, une mutation n'aura pas toujours les même conséquences.
Dans les alignements de protéines, les matrices de substitution permettent d'évaluer l'équivalence entre des acides aminés. Elles définissent un poids pour chaque paire d'acide aminé. Un poids plus ou moins positif pour les acides aminés considérés comme équivalents et un poids plus ou moins négatif pour les acides aminés considérés comme différents (la mutation de l'un par l'autre a des conséquences néfastes sur la fonction de la protéine).
Il existe différentes matrices de protéines :
Voici deux peptides, alignés sans indel. Calculez le score d'alignement de ces peptides avec la matrice Blosum55 et avec la matrice Blosum70.
RIFWYDK RMDWYQK
Pour trouver la structure d'un gène, c'est-à-dire la position des introns, la manière la plus efficace est de comparer la séquence génomique à l'ARNm mature qui lui correspond. Cela veut dire que l'on cherche à construire un alignement composé de régions identiques à 100% (pas de substitution) ou presque (aux erreurs de séquançage prêt), séparées par des régions d'indel plutôt longues (les introns).
Recherchez les entrées de la banque nucléique qui contiennent le mot MAKORIN1 dans leur champ description, et proviennent de l'organisme Seriola quinqueradiata. Vous pouvez utiliser SRS ou Entrez. Vous devez trouver la séquence génomique et celle de l'ARNm de ce gène.
Mémorisez ces deux séquences au format FASTA. Je vous conseille de modifier la ligne d'entête (après > dans le format FASTA ) de ces séquences pour que les résultats suivants soient plus lisibles. Ecrivez simplement : gene et ARNm.
Comparer le gène et son ARNm à l'aide de Dottup.
J'ai aligné les deux séquences à l'aide d'un alignement global selon l'algorithme de Needleman et Wunch, avec les paramètres par défaut. L'alignement se trouve sur cette page.
Pour obtenir un alignement satisfaisant, il faut modifier les paramètres du programme. J'ai utilisé l'interface développée par l'EBI pour effectuer l'alignement. Trouvez les paramètres adéquats pour aligner les deux séquences.
Voici les résultats obtenus sur le site
d'infobiogen, à partir du programme
LALIGN.
qui effectue un alignement local entre deux séquences et propose plusieurs
alignements.
Les huit exons sont bien trouvés, mais il y a souvent des nucléotides en début et
fin de région qui ne sont pas bien alignés. Les bornes des alignements ne correspondent
donc pas aux bornes des exons. Il n'est pas possible de changer les paramètres de
ce programme.
Pour mémoire : Dans la mesure du possible, il est préférable d'aligner des séquences protéiques plutot que des séquences nucléiques, pour plusieurs raisons :
Il n'est pas toujours facile d'estimer
à partir d'un alignement si deux séquences se ressemblent vraiment, c'est-à-dire
si elles ont un ancêtre commun. Des calculs statistiques évaluent la pertinence
d'un alignement pour en guider l'interprétation. Si l'on aligne deux séquences
A et B. On estime la significativité de l'alignement obtenu en mélangeant
les lettres de la séquence A puis en alignant la séquence A mélangée à la
séquence B intacte. Le score de l'alignement mélangé est calculé. L'opération
est répétée de nombreuses fois (500 dans le logiciel utilisé). Ainsi,
on obtient une population de scores obtenus à partir de l'alignement de la
séquence A mélangée, avec la séquence B. Ensuite, on estime à quel point le
score obtenu avec les séquences natives diffère du score obtenu avec les
séquences mélangées.
Si le score réel est beaucoup plus élevé que les scores trouvés par hasard,
cela signifie que notre alignement est exceptionel.
Nous allons comparer les séquences ADN et peptidiques de la thiorédoxine provenant des organismes Helicobacter pylori et Staphylococcus aureus.
>H.pylori, trxA atgagtcactatattgaattaactgaagaaaattttgaaagcaccattaa aaaaggggttgcgttagtggatttttgggcaccatggtgtggtccttgta agatgctatcccctgtgattgatgaattagctagcgaatatgaaggtaag gctaagatttgtaaagttaataccgatgagcaagaagaattgagcgcgaa atttggtattaggagcattcctacgcttttattcacaaaagatggcgaag ttgtccatcagttggtgggcgtgcaaactaaagtcgctttaaaagagcaa ttgaacaagcttttaggctag >S.aureus, trxA atggcaatcgtaaaagtaacagatgcagattttgattcaaaagtagaatc tggtgtacaactagtagatttttgggcaacatggtgtggtccatgtaaaa tgatcgctccggtattagaagaattagcagctgactatgaaggtaaagct gacattttaaaattagatgttgatgaaaatccatcaactgcagctaaata tgaagtgatgagtattccaacattaatcgtctttaaagacggtcaaccag ttgataaagttgttggtttccaaccaaaagaaaacttagctgaagtttta gataaacatttataa >H.pylori, TRX MSHYIELTEENFESTIKKGVALVDFWAPWCGPCKMLSPVIDELASEYEGKAKICKVNTDE QEELSAKFGIRSIPTLLFTKDGEVVHQLVGVQTKVALKEQLNKLLG >S.aureus, TRX MAIVKVTDADFDSKVESGVQLVDFWATWCGPCKMIAPVLEELAADYEGKADILKLDVDEN PSTAAKYEVMSIPTLIVFKDGQPVDKVVGFQPKENLAEVLDKHL
Voici l'alignement global que j'ai obtenu avec les deux séquences d'ADN.
Pour que vous puissez répondre plus facilement à la question précédante, faites une évaluation de sa significativité à l'aide du programme PRSS proposé à l'Université de Virginie (Etats-Unis). (NOTE : attention aux paramètres : l'alignment précédent a été obtenu avec une matrice +5/-4 et des pénalités de gap -10,-0.5)
Note : la réponse à cette question se trouve tout en bas de la page de résultats.
Voici l'alignement global que j'ai obtenu avec les deux séquences protéiques.
De la même manière que pour la question 2, estimez la significativité de l'alignement des séquences protéiques.
Comparer l'alignement obtenu avec les protéines à celui obtenu avec les gènes. L'alignement protéique est très bon. Il semble bien refléter l'évolution des protéines.
Pour mémoire : Deux algorithmes très différents sont utilisés principalement pour l'alignement multiple de séquences : Clustal et Dialign.
Clustal effectue un alignement pas à pas des séquences. Schématiquement, on peut dire qu'il ajuste colonne par colonne l'alignement.
Dialign a une stratégie différente : il fait un alignement par blocs. Il recherche les régions des séquences qui se ressemblent le plus et les aligne. Ensuite, il aligne du mieux possible les parties situées entre ces régions.
Lorque l'on fait un alignement multiple, il est préférable d'essayer ces deux logiciels et de comparer les résultats. En général, il faut corriger l'alignement à la main pour qu'il soit vraiment satisfaisant.
Nous allons comparer ces deux logiciels sur un exemple pour lequel on a une idée de l'alignement à obtenir grâce aux connaissances biologiques. Il s'agit des trois protéines suivantes :
On s'attend donc à ce que Proteine1 s'aligne avec le début de Proteine3 et Proteine2 avec la fin de Proteine3. Par contre, il ne doit pas y avoir de partie commune entre Proteine1 et Proteine3. Ces prédictions sont confirmées par des alignements 2 à 2.
Recherchez les séquences de ces trois proteines sur la banque UniprotKB (via l'interface SRS par exemple) et vérifiez que les séquences soit identiques à celle données ci dessous (en les alignant ... bien entendu)
>Proteine1 MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA FLVGEAFMRATEPGESLREMFFIT >Proteine2 MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA >Proteine3 MQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASPS KGVIRDDFDPARIAAIYKHYASAISVLTDEKYFRGSFNFLPIVSQIAPQPILCKDFIIDP YQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAKV VGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSALM AHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEVM AAAPLQYVGVFRNHDIADSVDKAKVLSLVAVQLHGNEEQLYIDTLREALPAHVAIWKALS VGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQTLGNVLLAGGLGADNCVEAAQTG CAGLDFNSAVESQPGIKDARLLASVFQTLRAY
Alignez les trois séquences entre elles à l'aide des logiciels Clustal et Dialign.
Nous allons étudier une famille de protéines dont les gènes sont dupliqués au sein d'un génome de Saccharomyces cereviasiae. Ce jeu de données contient un ensemble de séquences très conservées (duplications récentes) et un gène ayant une fonction proche (qui a divergé depuis plus longtemps). Voici les séquences :
>YRF11_YEAST Y'helicase protein 1 copies 1/5/8. MKVSDRRKFEKANFDEFESALNNKNDLVHCPSITLFESIPTEVRSFYEDEKSGLIKVVKF RTGAMDRKRSFEKIVISVMVGKNVQKFLTFVEDEPDFQGGPIPSKYLIPKKINLMVYTLF QVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCHEIASARPNDSSTMRTFTDFVSGA PIVRSLQKSTIRKYGYNLAPYMFLLLHVDELSIFSAYQASLPGEKKVDTERLKRDLCPRK PIEIKYFSQICNDMMNKKDRLGDILHIILRACALNFGAGPRGGAGDEEDRSITNEEPIIP SVDEHGLKVCKLRSPNTPRRLRKTLDAVKALLVSSCACTARDLDIFDDTNGVAMWKWIKI LYHEVAQETTLKDSYRITLVPSSDGISVCGKLFNREYVRGFYFACKAQFDNLWGELNNCF YMPTVVDIASLILRNREVLFREPKRGIDEYLENDSFLQMIPVKYREIVLPKLRRDTNKMT AALKNKVTVAIDELTVPLMWMVHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTRRIQLYT DYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVVGFEDPD QVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQGLIALGR HCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERASERWIQ WLGLESDYHCSFSSTRNAEDVVAGEAASSDHDQKISRVTRKRPREPKSTNDILVAGQKLF GSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVKYVSFLF VPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTDRIAAWE NIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSGTAPEAV ADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGHVHKIWK KVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGKLGAAEK VSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLRDGGLCY LLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTDLSADTV ELIERMDRLAEKQATASMSIIALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSANASTNA TTNSSTNATTTASTNVRTSATTTASINVRTSAITTESTNSSTNATTTASTNVRTSATTTA SINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSSTNATTTA STNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLLERKKLK AQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMFELCVCW AGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKYFSVKRGEIYSQIQ RNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKTEVLQYF LNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRHHRQLRS RYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFYNKTFRQKLEYLLEQISEVWLLP HWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDIILLCRDSSREVGE >YRF12_YEAST Y'helicase protein 1 copy 2. MVYTLFQVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCHEKASARPNDSSTMRTFT DFVSGAPIVRSLQKSTIRKYGYNLAPYMFLLLHVDELSIFSAYQASLPGEKKVDTERLKR DLCPRKPTEIKYFSQICNDMMNKKDRLGDILHIILRACALNFGAGPRGGAGDEEDRSITN EEPIIPSVDEHGLKVCKLRSPNTPRRLRKTLDAVKALLVSSCACTARDLDIFDDNNGVAM WKWIKILYHEVAQETALKDSYRITLVPSSDGVSVCGKLFNREYVRGFYFACKAQFDNLWE ELNDCFYMPTVVDIASLILRNREVLFREPKRGIDEYLENDSFLQMIPVKYREIVLPKLRR DTNKMTAALKNKVTVAIDELTVPLMWMIHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTR RIQLYTDYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVV GFEDPDQVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQG LIALGRHCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERA SERWIQWLGLESDYHCSFSSTRNAEDVVAGEAASSDHHQKISRVTRKRPREPKSTNDILV AGQKLFGSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVK YVSFLFVPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTD RIAAWENIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSG TAPEAVADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGH VHKIWKKVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGK LGAAEKVSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLR DGGLCYLLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTD LSADTVELIERMDRLAEKQATASMSIVALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSA NASTNATTNSSTNATTTASTNVRTSATTTASINVRTSATTTESTNSSTNATTTASTNVRT SATTTASINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSST NATTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLL ERKKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMF ELCVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKYFSVKRGE IYSQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKT EVLQYFLNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRH HRQLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFCNKTFRQKLEYLLEQIS EVWLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDILLCRDSSREVG E >YRF13_YEAST Y'helicase protein 1 copies 3/7. MEIENEQICTCIAQILHLLNSLIITFLDDDKTETGQSFVYIDGFLVKKHNNQHTIVNFET YKNKMKVSDRRKFEKANFDEFESALNNKNDLVHCPSITLFESIPTEVRSFYEDEKSGLIK VVKFRTGAMDRKRSFEKIVVSVMVGKNVQKFLTFVEDEPDFQGGPIPSKYLIPKKINLMV YTLFQVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCYEIASARPNDSSTMRTFTDF VSGTPIVRGLQKSTIRKYGYNLAPYMFLLLHVDELSIFSAYQASLPGEKKVDTERLKRDL CPRKPTEIKYFSQICNDMMNKKDRLGDILHIILRACALNFGAGPRGGAGDEEDRSITNEE PIIPSVDEHGLKVCKLRSPNTPRRLRKTLDAVKALLVSSCACTARDLDIFDDNNGVAMWK WIKILYHEVAQETALKDSYRITLVPSSDGVSVCGKLFNREYVRGFYFACKAQFDNLWEEL NDCFYMPTVVDIASLILRNREVLFREPKRGIDEYLENDSFLQMIPVKYREIVLPKLRRDT NKMTAALKNKVTVAIDELTVPLMWMIHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTRRI QLYTDYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVVGF EDPDQVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQGLI ALGRHCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERASE RWIQWLGLESDYHCSFSSTRNAEDVVAGEAASSDHHQKISRVTRKRPREPKSTNDILVAG QKLFGSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVKYV SFLFVPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTDRI AAWENIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSGTA PEAVADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGHVH KIWKKVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGKLG AAEKVSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLRDG GLCYLLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTDLS ADTVELIERMDRLAEKQATASMSIVALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSANA STNATTNSSTNATTTASTNVRTSATTTASINVRTSATTTESTNSSTNATTTASTNVRTSA TTTASINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSSTNA TTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLLER KKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMFEL CVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKYFSVKRGEIY SQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKTEV LQYFLNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRHHR QLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFCNKTFRQKLEYLLEQISEV WLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDILLCRDSSREVGE >YRF14_YEAST Y'helicase protein 1 copy 4. MWKTLGRVEQLLPYASLILRNREVLFREPKRGIDEYLENDSFFQMIPVKYREIVLPKLRR DTNKMTAALKNKVAVAIDELTVPLMWMIHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTR RIQLYTDYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVV GFEDPDQVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQG LIALGRHCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERA SERWIQWLGLESDYHCSFSSTRNAEDVVAGEAASSDHHQKISRVTRKRPREPKSTNDILV AGRKLFGSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVK YVSFLFVPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTD RIAAWENIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSG TAPEAVADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGH VHKIWKKVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGK LGAAEKVSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLR DGGLCYLLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTD LSADTVELIERMDRLAEKQATASMSIIALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSA NASTNATTNSSTNATTTASTNVRTSATTTASINVRTSAITTESTNSSTNATTTASTNVRT SATTTASINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSST NATTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLL ERKKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMF ELCVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKYFSVKRGE IYSQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKT EVLQYFLNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRH HRQLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFYNKTFRQKLEYLLEQIS EVWLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDIILLCRDSSREV GE >YRF16_YEAST Y'helicase protein 1 copy 6. MEIENEQICTCIAQILHLLNSLIITFLDDDKTETGQSFVYIDGFLVKKHNNQHTIVNFET YKNKMKVSDRRKFEKANFDEFESALNNKNDLVHCPSITLFESIPTEVRSFYEDEKSGLIK VVKFRTGAMDRKRSFEKIVVSVMVGKNVQKFLTFVEDEPDFQGGPIPSKYLIPKKINLMV YTLFQVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCYEIASARPNDSSTMRTFTDF VSGTPIVRGLQKSTIRKYGYNLAPYMFLLLHVDELSIFSAYQASLPGEKKVDTERLKRDL CPRKPTEIKYFSQICNDMMNKKDRLGDILHIILRACALNFGAGPRGGAGDEEDRSITNEE PIIPSVDEHGLKVCKLRSPNTPRRLRKTLDAVKALLVSSCACTARDLDIFDDNNGVAMWK WIKILYHEVAQETALKDSYRITLVPSSDGVSVCGKLFNREYVRGFYFACKAQFDNLWEEL NDCFYMPTVVDIASLILRNREVLFREPKRGIDEYLENDSFLQMIPVKYREIVLPKLRRDT NKMTAALKNKVTVAIDELTVPLMWMIHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTRRI QLYTDYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVVGF EDPDQVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQGLI ALGRHCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERASE RWIQWLGLESDYHCSFSSTRNAEDVVAGEAASSDHHQKISRVTRKRPREPKSTNDILVAG QKLFGSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVKYV SFLFVPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTDRI AAWENIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSGTA PEAVADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGHVH KIWKKVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGKLG AAEKVSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLRDG GLCYLLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTDLS ADTVELIERMDRLAEKQATASMSIVALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSANA STNATTNSSTNATTTASTNVRTSATTTASINVRTSATTTESTNSSTNATTTASTNVRTSA TTTASINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSSTNA TTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLLER KKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMFEL CVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKFFSVKRGEIY SQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKTEV LQYFLNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRHHR QLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFCNKTFRQKLEYLLEQISEV WLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDILLCRDSSREVGE >SUV3_YEAST ATP-dependent RNA helicase SUV3, mitochondrial precursor. MALVKYSTVFFPLRSLRLFVSIKKAYYHSEPHSIDLFHDKDWIVKRPKFLNLPKNEHSKL DIFQFNFNKSESNNVYLQDSSFKDNLDKAMQFIYNDKLSSLDAKQVPIKNLAWLKLRDYI YQQLKDPKLQAKTYVPSVSEIIHPSSPGNLISLLINCNKISNLVWKSVLKYSLSNNITTL DKFIHVLQQTFDHVYEQEILPMMTNTDDTDGAHNVDITNPAEWFPEARKIRRHIIMHIGP TNSGKTYRALQKLKSVDRGYYAGPLRLLAREVYDRFHAEKIRCNLLTGEEVIRDLDDRGN SAGLTSGTVEMVPINQKFDVVVLDEIQMMSDGDRGWAWTNALLGVVSKEVHLCGEKSVLP LVKSIVKMTGDKLTINEYERLGKLSVEEKPIKDGIKGLRKGDCVVAFSKKKILDLKLKIE KDTNLKVAVIYGSLPPETRVQQAALFNNGEYDIMVASDAIGMGLNLSIDRVVFTTNMKYN GEELMEMTSSQIKQIGGRAGRFKSRSASGGVPQGFITSFESKVLKSVRKAIEAPVEYLKT AVTWPTDEICAQLMTQFPPGTPTSVLLQTISDELEKSSDNLFTLSDLKSKLKVIGLFEHM EDIPFFDKLKLSNAPVKDMPMVTKAFTKFCETIAKRHTRGLLSYRLPFNLLDYNCIPNES YSLEVYESLYNIITLYFWLSNRYPNYFIDMESAKDLKYFCEMIIFEKLDRLKKNPYAHKP FGSTRGHLSSSRRRLRT
Voici les alignements obtenus à l'aide de clustal et dialign.
Le meilleur moyen d'estimer la qualité d'un alignement est de vérifier si les régions connues pour avoir la même fonction biologique sont bien alignées entre elles.