Nous allons étudier en parallèle plusieurs protéines à l'aide d'outils bioinformatiques. Le site NPSA du Pole BioInformatique Lyonnais et les Proteomic tools d'ExPASy regroupent de nombreux logiciels d'étude des protéines. Nous n'allons pas tous les utiliser au cours de ce TP.
Les informations données par un gel 2D à propos d'une protéine sont le point isoélectrique et la masse moléculaire. Ces informations ne sont pas toujours suffisantes pour identifier formellement une protéine, surtout si les séquences des protéines de l'organisme étudié ne sont pas toutes connues.
Le programme TagIdent recherche toutes les protéines d'une banque de données qui ont un pI et un PM compris dans un intervalle donné. Les valeurs de pI et PM pour les protéines de la banque sont calculées (non expérimentales). Il est éventuellement possible de préciser un court peptide appartenant à la protéine recherchée. Le peptide est recherché de façon exacte dans les protéines qui répondent aux critères de pI et PM.
Pour affiner la recherche, il est nécessaire de séquencer un fragment de la protéine. Voici le fragment obtenu : HYVEK. Il faut cocher l'option "Tagging" et indiquer le peptide dans la zone de saisie qui suit la phrase "Tag (up to 6 amino acids):" pour que la recherche du peptide soit effective.
Une protéine d'Erwinia chrysanthemi a été isolée et un fragment a été séquencé : VILVFF.
Pour travailler ensuite sur une séquence protéique, nous allons mémoriser la séquence de l'organisme le plus proche d'E. chrysanthemi à savoir Yersinia pestis.
Nous avons trois protéines de Erwinia chrysanthemi obtenues à partir de fragments de la séquence génomique. Voici les séquences de ces protéines telles qu'elles sont données dans l'annotation du génome :
>clone53 MKKIAIISSFSESCGNAYFTRILMDSMTDAGVQVECLSLNLLLTQSVNPEVRKKADKHIDDLCEKLKQFDGVNIQFEAGL YGTIPSDIIKRTLKLVSANPHTSVTLHSPRLVSDSASQREAIKQALKLRIKTAIRMYFAELRRNVSTRLNATIIKNLIKR RINIIAHTLRAKEQIELFFNYDNVHVHPLKIVDESHETSPDLLKAIRVKYKFRENDKIIGMFGFVNEYKGHSMAIKTLSC MPKGYKLMIFGRQHPQTIKNNELVNHYISSLQHQIHCDKVADRVFFMGEYDNEDFINLAGSVDYVWLPYVENGQDGSGIA SICMDVSKQVLCSSSFAFDELFRLIPDYSNYSRFDIGNYLELATKTTRFIPAKPKQASSGEKKYTLRSQAELYIKLSTE >clone47 MALYGKKTDLSSASSGGYTGVADVYQLWNYHARGNGNIGDKPSYTLEQARDQITRGNITWNGEKVFGKSAALTYSFLQSV ADSDMPDNFKGFVKFNAAQIQQTKLALQSWADVANVTFSEAKDGERATIQFGNYTLTPDGNTDNNSQAFGFYPGNWKWAG SAWFNYNQADNQRPDINEFGRNTLTHEIGHTLGLYHPGDYDASDGNPGYKDVTYAEDTRQFSIMSYWNEGYTGGDFHGYH AAAPLMDDIAAIQKLYGANMSTRTGDTVYGFHSNSGRDFYTATDSKTPLIFSVWDAGGNDTFDFSGYSANQRISLISGTF SDVGGLKGNVSIAAGAVMENAIGGSGHDVIVGNLSDNRIDGGAGNDVLYGDGGADILTGGAGKDIFVYAWEKDSLSSAPD TITDFQRGEDRIDLSAFNKNHDLRFVDNFSGKGNEVVLNWDSQSHQTNMWLHLSGHETADFLVNIVGAALQPSDVIV >bino10 MNVWTVKKKLAMMIAAIIISFMVLVVFLLSRQTAITSELQRLYEKDYQAASIIGQIDGLLTRVDINILRMIAIGDPASIA GWKSQNTENFTKVEGLLSKLKTIIDPTMAQSFDGLSSSYTLMRKGMEHQVQAVESGDIKNASEINKNEVKGPADKTFGEL SALKKAQDDLANKKVVAQQSSDVTARIISLLAAAIVALGSVVLGAVILRGLLRQLGGEPVIAAQVVSQMAQGDLSSPIPV KDHDHVSLLAQLQEMQSSLSGIVTSVRSNAESLATASIQISQGNQDLSQRTEEQASALQQTSATMEQLGSTVSNNAENAR QANQLALGASTLAAEGGNMVERVIETMKGINDSSKKISDIINVIDSIAFQTNILALNAAVEAARAGEQGRGFAVVASEVR SLAQRSANAAKEISTLITNSVGQVEQGSQLVDETGATMTQIVAAINQVTDIVSEISASSLEQSSGVKQVGQAITQIDTVT QQNAALVEESAAAAENLKEQAQQLVQAVAVFQVTSNAAQPRLFLGR
Nous allons travailler sur les 5 protéines en parallèle (AceA, PutP, clone53, clone47 et bino10).
La comparaison d'une séquence protéique aux séquences connues ne donne pas toujours de résultats satisfaisants. Les protéines portant la même fonction ne se ressemblent pas toujours sur toute leur longueur. C'est pourquoi des banques spécialisées ont été développées. Elles contiennent des portions de séquences (motifs, domaines) connues pour être impliquées dans une fonction particulière. Il peut s'agir de sites actifs, de sites de fixation à un ligand, ...
La banque InterPro regroupe les principales banques de motifs, domaines et familles protéiques. Une entrée d'Interpro contient une description biologique de l'objet, ainsi que sa représentation dans les différentes banques.
Voici les résultats obtenus en soumettant les cinq séquences à InterPro.
Pour la protéine AceA, 2 familles sont trouvées. Consultez les deux entrées InterPro (lien IPRXXXXXX). Dans les entrées apparaît la ligne "Signatures". Il s'agit des différentes banques qui décrivent la famille (le domaine).
Vous pouvez consulter l'entrée d'une banque qui trouve un motif à l'aide du lien qui se trouve juste devant le schéma. Pour les entrées PSXXXXX (ProSite) on dispose d'informations sur la pertinance des motifs
Intéressez vous maintenant au motif PS00142 du clone47
Note : la cohérence entre les fonctions trouvées pour une même protéine peu également donner des indications sur la qualité des prédictions.
Le site NPSA propose une interface qui fait tourner en même temps plusieurs logiciels de prédiction de structure 2D. L'affichage des résultats contient une ligne par logiciel de prédiction plus une ligne qui est la séquence consensus des résultats obtenus par l'ensemble des logiciels. L'adresse du site est : http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_seccons.html.
Les conventions de représentation des structures 2D de base les plus répendues sont :
Etudiez la structure 2D de la protéine aceA uniquement.
Je ne vais pas vous faire utiliser de logiciels de prédiction de structure 3D car ils prennent beaucoup de temps et ne sont pas toujours très fiables. De plus, la structure de protéines de la même famille que celles que l'on étudie a été déterminée expérimentalement. Nous allons rechercher ces structures dans les banques.
Seule la structure 3D de AceA a été déterminée expérimentalement. Cette structure a pour identifiant 1IGW dans la banque de structures 3D PDB.
Plusieurs sources d'information peuvent être croisées pour estimer la localisation cellulaire d'une protéine. Par exemple, on peut estimer si la protéine est membranaire ou non en utilisant un logiciel de prédiction de domaines transmembranaires. Il existe également des logiciels de prédiction de peptides signaux.
1. Pour la prédiction de domaines transmembranaires, je vous conseille d'utiliser le logiciel TopPred dont le lien est présent dans la page des Proteomics Tools.
2. Pour la prédiction de peptide signal, vous pouvez utiliser
SignalP qui fait des prédiction pour différents
organismes.
N'oubliez pas que E. chrysanthemi, E. coli et
Y. pestis sont des bactéries Gramm-.
Ce site limite le nombre d'interrogations d'un même domaine Internet
(Etablissement) effectuées dans une journée. Je vous donne les
résultats
pour ceux qui n'ont pas pu accéder au site.
La banque KEGG (Kyoto Encyclopedia of Genes and Genomes) a pour ambition de représenter les interactions moléculaires qui se déroulent au sein des cellules, de la façon la plus générale possible.
Au contraire, Ecocyc propose des schémas propres à un organisme donné, E. coli. Etant donné que beaucoup d'informations sont connues sur cet organisme, la banque est très documentée : descripton précise des protéines, du gène correspondant (information sur les opérons), des voies métaboliques, de la régulation des gènes, ... Maintenant, cette banque a été étendue à d'autres organismes.
Dans KEGG, cliquez sur le lien "KEGG2 - table of content", puis sur le lien "Pathway" de la colonne "DBGET search" du premier tableau. Tapez alors les mots-clés dans la zone de saisie pour essayer de trouver les protéines non vues dans EcoCyc.
Vous pouvez aller faire un petit tour du côté de biocarta pour étudiez les pathways des eucaryotes.
De même vous pouvez aller interroger les GO terms (Gene Ontology) avec AmiGO
Nous allons étudier trois protéines de la même famille (les globines) pour rechercher à quel niveau se situe leurs ressemblances et différences. Le but de cet exercice est de constater que des protéines différentes au niveau de leur séquence peuvent se ressembler au niveau de leur fonction et de leur structure.
Voici les séquences des 3 protéines que nous allons étudier :
>Globin I (Dimeric hemoglobin) PSVYDAAAQLTADVKKDLRDSWKVIGSDKKGNGVALMTTLFADNQETIGYFKRLGDVSQG MANDKLRGHSITLMYALQNFIDQLDNPDDLVCVVEKFAVNHITRKISAAEFGKINGPIKK VLASKNFGDKYANAWAKLVAVVQAAL >Leghemoglobin II GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQNNPEL QAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKGVADAHFPVVKEAILKTIKE VVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA >Myoglobin VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASED LKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHP GDFGADAQGAMNKALELFRKDIAAKYKELGYQG
J'ai fait tourner pour vous le logiciel PRSS qui évalue la significativité d'un alignement de deux séquences. Voici les résultats obtenus pour les 3 paires possibles :
Par alignement, le fait que ces protéines soient de la même famille n'est pas flagrant. Particulièrement, la léghemoglobine ne ressemble pas aux deux autres. La banque InterPro permet d'identifier des domaines protéiques, mais peut aussi indiquer à quelle famille appartient une protéine. Ces prédictions sont uniquement basées sur la séquence primaire des protéines.
Utilisez le programme du site NPSA pour prédire la structure 2D de chacune des 3 protéines.
J'ai extrait des résultats de prédiction de structure 2D, le consensus obtenu pour chaque structure. Pour les colonnes non résolues (notées à l'aide d'un point d'interrogation), j'ai décidé arbitrairement de leur affectuer la lettre qui précède cette postion. Enfin, j'ai lancé Clustal sur ces séquences de structures en choisissant la matrice identité. Voici l'alignement que j'ai obtenu.
Plusieurs logiciels gratuits sont disponibles pour visualiser des structures 3D de protéines décrites dans des formats particuliers. Il existe trois formats principaux en biologie :
Nous allons travailler avec le logiciel Deep View. Il est peut-être installé sur vos machines. Sinon, il faut le faire en le téléchargeant à partir du site : http://www.expasy.org/spdbv/.
Voici une description rapide du logiciel. Il est découpé en plusieurs fenêtres :
Je vous donne les structures 3D trouvées expérimentalement pour les 3 protéines :
Vous pouvez visualiser ces structures à l'aide du logiciel SPDBV, après les avoir enregistrées sur votre ordinateur.
Suivez les instructions suivantes pour effectuer un alignement structural des trois protéines, à l'aide du visualisateur Deep View :
Des protéines qui se ressemblent peu au niveau de leur séquence peuvent être de la même famille fonctionnelle et se ressembler beaucoup au niveau de leur structure 3D.