La comparaison de séquences.

Au cours de ce TP, nous allons comparez des séquences biologiques à l'aide de différents logiciels.

I. Comparaison de deux séquences.

1. Dotplot.
Pour mémoire :

Un dotplot est une comparaison visuelle de deux séquences. Une séquence est en abscisse, l'autre est en ordonnée.

Dans la version simple, si une ligne et une colonne contiennent la même lettre, un point est dessiné à l'intersection des deux colonnes.

Pour filtrer les résultats, il est possible de mettre un point pour la comparaison de deux fenêtres, c'est-à-dire deux fragments des séquence de même taille. Toutes les fenêtres d'une taille donnée présentes sur les séquences sont comparées deux à deux. Un score de comparaison est calculé. Par exemple, le nombre de nucléotides à la même position dans les fenêtres. Un point est dessiné pour une comparaison, seulement s'il dépasse un score seuil. Mieux, un niveau de gris peut-être affecté par intervalle de score.

Il existe un logiciel de dotplot interactif, Dotlet. Mais, il necessite JAVA pour fonctionner et JAVA n'est pas installé sur vos machines. Nous allons utiliser Dottup qui génère des dessins de dotplot.

Voici deux séquences :

AAGTCATTCGCACATCG
AACACATCG

Comparez ces deux séquences à l'aide de Dottup. Avant de lancer le programme, précisez, dans "output Section", que le "graph" doit être au format "png" (à choisir dans un menu déroulant). Vous remarquerez qu'il est également demandé la taille des mots comparés. L'option par défaut est 10. C'est trop grand pour nos séquences. Pour commencer, nous allons prendre des mots de taille 2 qui est la valeur la plus petite autorisée.

Maintenant, nous allons filtrer le dotplot en ne demandant de n'afficher que les mots de 5 nucléotides communs aux deux séquences. Ainsi, les mots courts n'apparaîtrons plus.

2. Alignement.

Pour mémoire :


a. Les paramètres ADN.

Voici trois alignements semi-globaux obtenus à partir du couple de séquences précédant :


AAGTCATTCGCACATCG
::  :::
AACACATCG

AAGTCATTCGCACATCG
::  ::: ::
AACACAT-CG 

AAGTCATTCGCACATCG
::        :::::::
AA--------CACATCG


Calculez le score de chaque alignement avec le jeu de paramètres suivant :


b. Les paramètres protéiques.

Pour mémoire : Lorsqu'un acide aminé est muté dans une protéine, cela n'affecte pas toujours sa fonction. Il est donc possible de considérer certains acides aminés comme équivalents, c'est-à-dire qu'ils peuvent être remplacés l'un par l'autre dans une protéine sans conséquence majeure. Mais, selon les protéines et selon l'emplacement de l'acide aminé dans la protéine, une mutation n'aura pas toujours les même conséquences.

Dans les alignements de protéines, les matrices de substitution permettent d'évaluer l'équivalence entre des acides aminés. Elles définissent un poids pour chaque paire d'acide aminé. Un poids plus ou moins positif pour les acides aminés considérés comme équivalents et un poids plus ou moins négatif pour les acides aminés considérés comme différents (la mutation de l'un par l'autre a des conséquences néfastes sur la fonction de la protéine).

Il existe différentes matrices de protéines :

Voici deux peptides, alignés sans indel. Calculez le score d'alignement de ces peptides avec la matrice Blosum55 et avec la matrice Blosum70.


RIFWYDK
RMDWYQK


c. Exemple 1 : comparaison d'un gène à son ARNm.

Pour trouver la structure d'un gène, c'est-à-dire la position des introns, la manière la plus efficace est de comparer la séquence génomique à l'ARNm mature qui lui correspond. Cela veut dire que l'on cherche à construire un alignement composé de régions identiques à 100% (pas de substitution) ou presque (aux erreurs de séquançage prêt), séparées par des régions d'indel plutôt longues (les introns).

Recherchez les entrées de la banque nucléique qui contiennent le mot MAKORIN1 dans leur champ description, et proviennent de l'organisme Seriola quinqueradiata. Vous pouvez utiliser SRS ou Entrez. Vous devez trouver la séquence génomique et celle de l'ARNm de ce gène.

Mémorisez ces deux séquences au format FASTA. Je vous conseille de modifier la ligne d'entête (après > dans le format FASTA ) de ces séquences pour que les résultats suivants soient plus lisibles. Ecrivez simplement : gene et ARNm.

Comparer le gène et son ARNm à l'aide de Dottup.

J'ai aligné les deux séquences à l'aide d'un alignement global selon l'algorithme de Needleman et Wunch, avec les paramètres par défaut. L'alignement se trouve sur cette page.

Pour obtenir un alignement satisfaisant, il faut modifier les paramètres du programme. J'ai utilisé l'interface développée par l'EBI pour effectuer l'alignement. Trouvez les paramètres adéquats pour aligner les deux séquences.

Voici les résultats obtenus sur le site d'infobiogen, à partir du programme LALIGN. qui effectue un alignement local entre deux séquences et propose plusieurs alignements.
Les huit exons sont bien trouvés, mais il y a souvent des nucléotides en début et fin de région qui ne sont pas bien alignés. Les bornes des alignements ne correspondent donc pas aux bornes des exons. Il n'est pas possible de changer les paramètres de ce programme.


d. Alignement ADN ou protéique et significativité des scores.

Pour mémoire : Dans la mesure du possible, il est préférable d'aligner des séquences protéiques plutot que des séquences nucléiques, pour plusieurs raisons :

Il n'est pas toujours facile d'estimer à partir d'un alignement si deux séquences se ressemblent vraiment, c'est-à-dire si elles ont un ancêtre commun. Des calculs statistiques évaluent la pertinence d'un alignement pour en guider l'interprétation. Si l'on aligne deux séquences A et B. On estime la significativité de l'alignement obtenu en mélangeant les lettres de la séquence A puis en alignant la séquence A mélangée à la séquence B intacte. Le score de l'alignement mélangé est calculé. L'opération est répétée de nombreuses fois (500 dans le logiciel utilisé). Ainsi, on obtient une population de scores obtenus à partir de l'alignement de la séquence A mélangée, avec la séquence B. Ensuite, on estime à quel point le score obtenu avec les séquences natives diffère du score obtenu avec les séquences mélangées.
Si le score réel est beaucoup plus élevé que les scores trouvés par hasard, cela signifie que notre alignement est exceptionel.

Nous allons comparer les séquences ADN et peptidiques de la thiorédoxine provenant des organismes Helicobacter pylori et Staphylococcus aureus.

>H.pylori, trxA
atgagtcactatattgaattaactgaagaaaattttgaaagcaccattaa
aaaaggggttgcgttagtggatttttgggcaccatggtgtggtccttgta
agatgctatcccctgtgattgatgaattagctagcgaatatgaaggtaag
gctaagatttgtaaagttaataccgatgagcaagaagaattgagcgcgaa
atttggtattaggagcattcctacgcttttattcacaaaagatggcgaag
ttgtccatcagttggtgggcgtgcaaactaaagtcgctttaaaagagcaa
ttgaacaagcttttaggctag
>S.aureus, trxA
atggcaatcgtaaaagtaacagatgcagattttgattcaaaagtagaatc
tggtgtacaactagtagatttttgggcaacatggtgtggtccatgtaaaa
tgatcgctccggtattagaagaattagcagctgactatgaaggtaaagct
gacattttaaaattagatgttgatgaaaatccatcaactgcagctaaata
tgaagtgatgagtattccaacattaatcgtctttaaagacggtcaaccag
ttgataaagttgttggtttccaaccaaaagaaaacttagctgaagtttta
gataaacatttataa

>H.pylori, TRX
MSHYIELTEENFESTIKKGVALVDFWAPWCGPCKMLSPVIDELASEYEGKAKICKVNTDE
QEELSAKFGIRSIPTLLFTKDGEVVHQLVGVQTKVALKEQLNKLLG 
>S.aureus, TRX
MAIVKVTDADFDSKVESGVQLVDFWATWCGPCKMIAPVLEELAADYEGKADILKLDVDEN
PSTAAKYEVMSIPTLIVFKDGQPVDKVVGFQPKENLAEVLDKHL

Voici l'alignement global que j'ai obtenu avec les deux séquences d'ADN.

Pour que vous puissez répondre plus facilement à la question précédante, faites une évaluation de sa significativité à l'aide du programme PRSS proposé à l'Université de Virginie (Etats-Unis). (NOTE : attention aux paramètres : l'alignment précédent a été obtenu avec une matrice +5/-4 et des pénalités de gap -10,-0.5)

Note : la réponse à cette question se trouve tout en bas de la page de résultats.

Voici l'alignement global que j'ai obtenu avec les deux séquences protéiques.

De la même manière que pour la question 2, estimez la significativité de l'alignement des séquences protéiques.

Comparer l'alignement obtenu avec les protéines à celui obtenu avec les gènes. L'alignement protéique est très bon. Il semble bien refléter l'évolution des protéines.

II. Alignement multiple.

Pour mémoire : Deux algorithmes très différents sont utilisés principalement pour l'alignement multiple de séquences : Clustal et Dialign.

Clustal effectue un alignement pas à pas des séquences. Schématiquement, on peut dire qu'il ajuste colonne par colonne l'alignement.

Dialign a une stratégie différente : il fait un alignement par blocs. Il recherche les régions des séquences qui se ressemblent le plus et les aligne. Ensuite, il aligne du mieux possible les parties situées entre ces régions.

Lorque l'on fait un alignement multiple, il est préférable d'essayer ces deux logiciels et de comparer les résultats. En général, il faut corriger l'alignement à la main pour qu'il soit vraiment satisfaisant.

1. Un exemple où Dialign est le meilleur.

Nous allons comparer ces deux logiciels sur un exemple pour lequel on a une idée de l'alignement à obtenir grâce aux connaissances biologiques. Il s'agit des trois protéines suivantes :

On s'attend donc à ce que Proteine1 s'aligne avec le début de Proteine3 et Proteine2 avec la fin de Proteine3. Par contre, il ne doit pas y avoir de partie commune entre Proteine1 et Proteine3. Ces prédictions sont confirmées par des alignements 2 à 2.

Recherchez les séquences de ces trois proteines sur la banque UniprotKB (via l'interface SRS par exemple) et vérifiez que les séquences soit identiques à celle données ci dessous (en les alignant ... bien entendu)

>Proteine1
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI
KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR
KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA
IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA
FLVGEAFMRATEPGESLREMFFIT
>Proteine2
MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA
IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA
GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV
FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA
>Proteine3
MQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASPS
KGVIRDDFDPARIAAIYKHYASAISVLTDEKYFRGSFNFLPIVSQIAPQPILCKDFIIDP
YQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAKV
VGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSALM
AHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEVM
AAAPLQYVGVFRNHDIADSVDKAKVLSLVAVQLHGNEEQLYIDTLREALPAHVAIWKALS
VGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQTLGNVLLAGGLGADNCVEAAQTG
CAGLDFNSAVESQPGIKDARLLASVFQTLRAY

Alignez les trois séquences entre elles à l'aide des logiciels Clustal et Dialign.

2. Un exemple où Clustal est le meilleur.

Nous allons étudier une famille de protéines dont les gènes sont dupliqués au sein d'un génome de Saccharomyces cereviasiae. Ce jeu de données contient un ensemble de séquences très conservées (duplications récentes) et un gène ayant une fonction proche (qui a divergé depuis plus longtemps). Voici les séquences :

>YRF11_YEAST Y'helicase protein 1 copies 1/5/8.
MKVSDRRKFEKANFDEFESALNNKNDLVHCPSITLFESIPTEVRSFYEDEKSGLIKVVKF
RTGAMDRKRSFEKIVISVMVGKNVQKFLTFVEDEPDFQGGPIPSKYLIPKKINLMVYTLF
QVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCHEIASARPNDSSTMRTFTDFVSGA
PIVRSLQKSTIRKYGYNLAPYMFLLLHVDELSIFSAYQASLPGEKKVDTERLKRDLCPRK
PIEIKYFSQICNDMMNKKDRLGDILHIILRACALNFGAGPRGGAGDEEDRSITNEEPIIP
SVDEHGLKVCKLRSPNTPRRLRKTLDAVKALLVSSCACTARDLDIFDDTNGVAMWKWIKI
LYHEVAQETTLKDSYRITLVPSSDGISVCGKLFNREYVRGFYFACKAQFDNLWGELNNCF
YMPTVVDIASLILRNREVLFREPKRGIDEYLENDSFLQMIPVKYREIVLPKLRRDTNKMT
AALKNKVTVAIDELTVPLMWMVHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTRRIQLYT
DYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVVGFEDPD
QVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQGLIALGR
HCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERASERWIQ
WLGLESDYHCSFSSTRNAEDVVAGEAASSDHDQKISRVTRKRPREPKSTNDILVAGQKLF
GSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVKYVSFLF
VPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTDRIAAWE
NIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSGTAPEAV
ADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGHVHKIWK
KVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGKLGAAEK
VSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLRDGGLCY
LLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTDLSADTV
ELIERMDRLAEKQATASMSIIALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSANASTNA
TTNSSTNATTTASTNVRTSATTTASINVRTSAITTESTNSSTNATTTASTNVRTSATTTA
SINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSSTNATTTA
STNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLLERKKLK
AQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMFELCVCW
AGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKYFSVKRGEIYSQIQ
RNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKTEVLQYF
LNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRHHRQLRS
RYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFYNKTFRQKLEYLLEQISEVWLLP
HWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDIILLCRDSSREVGE
>YRF12_YEAST Y'helicase protein 1 copy 2.
MVYTLFQVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCHEKASARPNDSSTMRTFT
DFVSGAPIVRSLQKSTIRKYGYNLAPYMFLLLHVDELSIFSAYQASLPGEKKVDTERLKR
DLCPRKPTEIKYFSQICNDMMNKKDRLGDILHIILRACALNFGAGPRGGAGDEEDRSITN
EEPIIPSVDEHGLKVCKLRSPNTPRRLRKTLDAVKALLVSSCACTARDLDIFDDNNGVAM
WKWIKILYHEVAQETALKDSYRITLVPSSDGVSVCGKLFNREYVRGFYFACKAQFDNLWE
ELNDCFYMPTVVDIASLILRNREVLFREPKRGIDEYLENDSFLQMIPVKYREIVLPKLRR
DTNKMTAALKNKVTVAIDELTVPLMWMIHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTR
RIQLYTDYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVV
GFEDPDQVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQG
LIALGRHCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERA
SERWIQWLGLESDYHCSFSSTRNAEDVVAGEAASSDHHQKISRVTRKRPREPKSTNDILV
AGQKLFGSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVK
YVSFLFVPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTD
RIAAWENIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSG
TAPEAVADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGH
VHKIWKKVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGK
LGAAEKVSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLR
DGGLCYLLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTD
LSADTVELIERMDRLAEKQATASMSIVALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSA
NASTNATTNSSTNATTTASTNVRTSATTTASINVRTSATTTESTNSSTNATTTASTNVRT
SATTTASINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSST
NATTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLL
ERKKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMF
ELCVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKYFSVKRGE
IYSQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKT
EVLQYFLNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRH
HRQLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFCNKTFRQKLEYLLEQIS
EVWLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDILLCRDSSREVG
E
>YRF13_YEAST Y'helicase protein 1 copies 3/7.
MEIENEQICTCIAQILHLLNSLIITFLDDDKTETGQSFVYIDGFLVKKHNNQHTIVNFET
YKNKMKVSDRRKFEKANFDEFESALNNKNDLVHCPSITLFESIPTEVRSFYEDEKSGLIK
VVKFRTGAMDRKRSFEKIVVSVMVGKNVQKFLTFVEDEPDFQGGPIPSKYLIPKKINLMV
YTLFQVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCYEIASARPNDSSTMRTFTDF
VSGTPIVRGLQKSTIRKYGYNLAPYMFLLLHVDELSIFSAYQASLPGEKKVDTERLKRDL
CPRKPTEIKYFSQICNDMMNKKDRLGDILHIILRACALNFGAGPRGGAGDEEDRSITNEE
PIIPSVDEHGLKVCKLRSPNTPRRLRKTLDAVKALLVSSCACTARDLDIFDDNNGVAMWK
WIKILYHEVAQETALKDSYRITLVPSSDGVSVCGKLFNREYVRGFYFACKAQFDNLWEEL
NDCFYMPTVVDIASLILRNREVLFREPKRGIDEYLENDSFLQMIPVKYREIVLPKLRRDT
NKMTAALKNKVTVAIDELTVPLMWMIHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTRRI
QLYTDYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVVGF
EDPDQVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQGLI
ALGRHCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERASE
RWIQWLGLESDYHCSFSSTRNAEDVVAGEAASSDHHQKISRVTRKRPREPKSTNDILVAG
QKLFGSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVKYV
SFLFVPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTDRI
AAWENIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSGTA
PEAVADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGHVH
KIWKKVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGKLG
AAEKVSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLRDG
GLCYLLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTDLS
ADTVELIERMDRLAEKQATASMSIVALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSANA
STNATTNSSTNATTTASTNVRTSATTTASINVRTSATTTESTNSSTNATTTASTNVRTSA
TTTASINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSSTNA
TTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLLER
KKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMFEL
CVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKYFSVKRGEIY
SQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKTEV
LQYFLNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRHHR
QLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFCNKTFRQKLEYLLEQISEV
WLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDILLCRDSSREVGE
>YRF14_YEAST Y'helicase protein 1 copy 4.
MWKTLGRVEQLLPYASLILRNREVLFREPKRGIDEYLENDSFFQMIPVKYREIVLPKLRR
DTNKMTAALKNKVAVAIDELTVPLMWMIHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTR
RIQLYTDYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVV
GFEDPDQVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQG
LIALGRHCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERA
SERWIQWLGLESDYHCSFSSTRNAEDVVAGEAASSDHHQKISRVTRKRPREPKSTNDILV
AGRKLFGSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVK
YVSFLFVPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTD
RIAAWENIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSG
TAPEAVADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGH
VHKIWKKVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGK
LGAAEKVSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLR
DGGLCYLLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTD
LSADTVELIERMDRLAEKQATASMSIIALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSA
NASTNATTNSSTNATTTASTNVRTSATTTASINVRTSAITTESTNSSTNATTTASTNVRT
SATTTASINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSST
NATTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLL
ERKKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMF
ELCVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKYFSVKRGE
IYSQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKT
EVLQYFLNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRH
HRQLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFYNKTFRQKLEYLLEQIS
EVWLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDIILLCRDSSREV
GE
>YRF16_YEAST Y'helicase protein 1 copy 6.
MEIENEQICTCIAQILHLLNSLIITFLDDDKTETGQSFVYIDGFLVKKHNNQHTIVNFET
YKNKMKVSDRRKFEKANFDEFESALNNKNDLVHCPSITLFESIPTEVRSFYEDEKSGLIK
VVKFRTGAMDRKRSFEKIVVSVMVGKNVQKFLTFVEDEPDFQGGPIPSKYLIPKKINLMV
YTLFQVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCYEIASARPNDSSTMRTFTDF
VSGTPIVRGLQKSTIRKYGYNLAPYMFLLLHVDELSIFSAYQASLPGEKKVDTERLKRDL
CPRKPTEIKYFSQICNDMMNKKDRLGDILHIILRACALNFGAGPRGGAGDEEDRSITNEE
PIIPSVDEHGLKVCKLRSPNTPRRLRKTLDAVKALLVSSCACTARDLDIFDDNNGVAMWK
WIKILYHEVAQETALKDSYRITLVPSSDGVSVCGKLFNREYVRGFYFACKAQFDNLWEEL
NDCFYMPTVVDIASLILRNREVLFREPKRGIDEYLENDSFLQMIPVKYREIVLPKLRRDT
NKMTAALKNKVTVAIDELTVPLMWMIHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTRRI
QLYTDYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVVGF
EDPDQVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQGLI
ALGRHCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERASE
RWIQWLGLESDYHCSFSSTRNAEDVVAGEAASSDHHQKISRVTRKRPREPKSTNDILVAG
QKLFGSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVKYV
SFLFVPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTDRI
AAWENIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSGTA
PEAVADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGHVH
KIWKKVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGKLG
AAEKVSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLRDG
GLCYLLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTDLS
ADTVELIERMDRLAEKQATASMSIVALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSANA
STNATTNSSTNATTTASTNVRTSATTTASINVRTSATTTESTNSSTNATTTASTNVRTSA
TTTASINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSSTNA
TTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLLER
KKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMFEL
CVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKFFSVKRGEIY
SQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKTEV
LQYFLNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRHHR
QLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFCNKTFRQKLEYLLEQISEV
WLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDILLCRDSSREVGE
>SUV3_YEAST ATP-dependent RNA helicase SUV3, mitochondrial precursor.
MALVKYSTVFFPLRSLRLFVSIKKAYYHSEPHSIDLFHDKDWIVKRPKFLNLPKNEHSKL
DIFQFNFNKSESNNVYLQDSSFKDNLDKAMQFIYNDKLSSLDAKQVPIKNLAWLKLRDYI
YQQLKDPKLQAKTYVPSVSEIIHPSSPGNLISLLINCNKISNLVWKSVLKYSLSNNITTL
DKFIHVLQQTFDHVYEQEILPMMTNTDDTDGAHNVDITNPAEWFPEARKIRRHIIMHIGP
TNSGKTYRALQKLKSVDRGYYAGPLRLLAREVYDRFHAEKIRCNLLTGEEVIRDLDDRGN
SAGLTSGTVEMVPINQKFDVVVLDEIQMMSDGDRGWAWTNALLGVVSKEVHLCGEKSVLP
LVKSIVKMTGDKLTINEYERLGKLSVEEKPIKDGIKGLRKGDCVVAFSKKKILDLKLKIE
KDTNLKVAVIYGSLPPETRVQQAALFNNGEYDIMVASDAIGMGLNLSIDRVVFTTNMKYN
GEELMEMTSSQIKQIGGRAGRFKSRSASGGVPQGFITSFESKVLKSVRKAIEAPVEYLKT
AVTWPTDEICAQLMTQFPPGTPTSVLLQTISDELEKSSDNLFTLSDLKSKLKVIGLFEHM
EDIPFFDKLKLSNAPVKDMPMVTKAFTKFCETIAKRHTRGLLSYRLPFNLLDYNCIPNES
YSLEVYESLYNIITLYFWLSNRYPNYFIDMESAKDLKYFCEMIIFEKLDRLKKNPYAHKP
FGSTRGHLSSSRRRLRT

Voici les alignements obtenus à l'aide de clustal et dialign.

Le meilleur moyen d'estimer la qualité d'un alignement est de vérifier si les régions connues pour avoir la même fonction biologique sont bien alignées entre elles.


Last modified: Tue Mar 7 10:14:16 CET 2006