L'étude de protéines.

Nous allons étudier en parallèle plusieurs protéines à l'aide d'outils bioinformatiques. Le site NPSA du Pole BioInformatique Lyonnais et les Proteomic tools d'ExPASy regroupent de nombreux logiciels d'étude des protéines. Nous n'allons pas tous les utiliser au cours de ce TP.

I. Identification de protéines.

1. A partir d'un gel 2D.

Les informations données par un gel 2D à propos d'une protéine sont le point isoélectrique et la masse moléculaire. Ces informations ne sont pas toujours suffisantes pour identifier formellement une protéine, surtout si les séquences des protéines de l'organisme étudié ne sont pas toutes connues.

Le programme TagIdent recherche toutes les protéines d'une banque de données qui ont un pI et un PM compris dans un intervalle donné. Les valeurs de pI et PM pour les protéines de la banque sont calculées (non expérimentales). Il est éventuellement possible de préciser un court peptide appartenant à la protéine recherchée. Le peptide est recherché de façon exacte dans les protéines qui répondent aux critères de pI et PM.

Pour affiner la recherche, il est nécessaire de séquencer un fragment de la protéine. Voici le fragment obtenu : HYVEK. Il faut cocher l'option "Tagging" et indiquer le peptide dans la zone de saisie qui suit la phrase "Tag (up to 6 amino acids):" pour que la recherche du peptide soit effective.

2. A partir d'un peptide.

Une protéine d'Erwinia chrysanthemi a été isolée et un fragment a été séquencé : VILVFF.

Pour travailler ensuite sur une séquence protéique, nous allons mémoriser la séquence de l'organisme le plus proche d'E. chrysanthemi à savoir Yersinia pestis.

II. Etude complète de protéines.

Nous avons trois protéines de Erwinia chrysanthemi obtenues à partir de fragments de la séquence génomique. Voici les séquences de ces protéines telles qu'elles sont données dans l'annotation du génome :



>clone53
MKKIAIISSFSESCGNAYFTRILMDSMTDAGVQVECLSLNLLLTQSVNPEVRKKADKHIDDLCEKLKQFDGVNIQFEAGL
YGTIPSDIIKRTLKLVSANPHTSVTLHSPRLVSDSASQREAIKQALKLRIKTAIRMYFAELRRNVSTRLNATIIKNLIKR
RINIIAHTLRAKEQIELFFNYDNVHVHPLKIVDESHETSPDLLKAIRVKYKFRENDKIIGMFGFVNEYKGHSMAIKTLSC
MPKGYKLMIFGRQHPQTIKNNELVNHYISSLQHQIHCDKVADRVFFMGEYDNEDFINLAGSVDYVWLPYVENGQDGSGIA
SICMDVSKQVLCSSSFAFDELFRLIPDYSNYSRFDIGNYLELATKTTRFIPAKPKQASSGEKKYTLRSQAELYIKLSTE
>clone47
MALYGKKTDLSSASSGGYTGVADVYQLWNYHARGNGNIGDKPSYTLEQARDQITRGNITWNGEKVFGKSAALTYSFLQSV
ADSDMPDNFKGFVKFNAAQIQQTKLALQSWADVANVTFSEAKDGERATIQFGNYTLTPDGNTDNNSQAFGFYPGNWKWAG
SAWFNYNQADNQRPDINEFGRNTLTHEIGHTLGLYHPGDYDASDGNPGYKDVTYAEDTRQFSIMSYWNEGYTGGDFHGYH
AAAPLMDDIAAIQKLYGANMSTRTGDTVYGFHSNSGRDFYTATDSKTPLIFSVWDAGGNDTFDFSGYSANQRISLISGTF
SDVGGLKGNVSIAAGAVMENAIGGSGHDVIVGNLSDNRIDGGAGNDVLYGDGGADILTGGAGKDIFVYAWEKDSLSSAPD
TITDFQRGEDRIDLSAFNKNHDLRFVDNFSGKGNEVVLNWDSQSHQTNMWLHLSGHETADFLVNIVGAALQPSDVIV
>bino10
MNVWTVKKKLAMMIAAIIISFMVLVVFLLSRQTAITSELQRLYEKDYQAASIIGQIDGLLTRVDINILRMIAIGDPASIA
GWKSQNTENFTKVEGLLSKLKTIIDPTMAQSFDGLSSSYTLMRKGMEHQVQAVESGDIKNASEINKNEVKGPADKTFGEL
SALKKAQDDLANKKVVAQQSSDVTARIISLLAAAIVALGSVVLGAVILRGLLRQLGGEPVIAAQVVSQMAQGDLSSPIPV
KDHDHVSLLAQLQEMQSSLSGIVTSVRSNAESLATASIQISQGNQDLSQRTEEQASALQQTSATMEQLGSTVSNNAENAR
QANQLALGASTLAAEGGNMVERVIETMKGINDSSKKISDIINVIDSIAFQTNILALNAAVEAARAGEQGRGFAVVASEVR
SLAQRSANAAKEISTLITNSVGQVEQGSQLVDETGATMTQIVAAINQVTDIVSEISASSLEQSSGVKQVGQAITQIDTVT
QQNAALVEESAAAAENLKEQAQQLVQAVAVFQVTSNAAQPRLFLGR

Nous allons travailler sur les 5 protéines en parallèle (AceA, PutP, clone53, clone47 et bino10).

1. Prédiction de la fonction.

La comparaison d'une séquence protéique aux séquences connues ne donne pas toujours de résultats satisfaisants. Les protéines portant la même fonction ne se ressemblent pas toujours sur toute leur longueur. C'est pourquoi des banques spécialisées ont été développées. Elles contiennent des portions de séquences (motifs, domaines) connues pour être impliquées dans une fonction particulière. Il peut s'agir de sites actifs, de sites de fixation à un ligand, ...

La banque InterPro regroupe les principales banques de motifs, domaines et familles protéiques. Une entrée d'Interpro contient une description biologique de l'objet, ainsi que sa représentation dans les différentes banques.

Voici les résultats obtenus en soumettant les cinq séquences à InterPro.

Pour la protéine AceA, 2 familles sont trouvées. Consultez les deux entrées InterPro (lien IPRXXXXXX). Dans les entrées apparaît la ligne "Signatures". Il s'agit des différentes banques qui décrivent la famille (le domaine).

Vous pouvez consulter l'entrée d'une banque qui trouve un motif à l'aide du lien qui se trouve juste devant le schéma. Pour les entrées PSXXXXX (ProSite) on dispose d'informations sur la pertinance des motifs

Intéressez vous maintenant au motif PS00142 du clone47

Note : la cohérence entre les fonctions trouvées pour une même protéine peu également donner des indications sur la qualité des prédictions.

2. Etude des structures 2D et 3D.
-> Prédiction de strucutre 2D.

Le site NPSA propose une interface qui fait tourner en même temps plusieurs logiciels de prédiction de structure 2D. L'affichage des résultats contient une ligne par logiciel de prédiction plus une ligne qui est la séquence consensus des résultats obtenus par l'ensemble des logiciels. L'adresse du site est : http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_seccons.html.

Les conventions de représentation des structures 2D de base les plus répendues sont :

Etudiez la structure 2D de la protéine aceA uniquement.

-> Prédiction de structure 3D.

Je ne vais pas vous faire utiliser de logiciels de prédiction de structure 3D car ils prennent beaucoup de temps et ne sont pas toujours très fiables. De plus, la structure de protéines de la même famille que celles que l'on étudie a été déterminée expérimentalement. Nous allons rechercher ces structures dans les banques.

Seule la structure 3D de AceA a été déterminée expérimentalement. Cette structure a pour identifiant 1IGW dans la banque de structures 3D PDB.

3. Prédiction de la localisation cellulaire.

Plusieurs sources d'information peuvent être croisées pour estimer la localisation cellulaire d'une protéine. Par exemple, on peut estimer si la protéine est membranaire ou non en utilisant un logiciel de prédiction de domaines transmembranaires. Il existe également des logiciels de prédiction de peptides signaux.

1. Pour la prédiction de domaines transmembranaires, je vous conseille d'utiliser le logiciel TopPred dont le lien est présent dans la page des Proteomics Tools.

2. Pour la prédiction de peptide signal, vous pouvez utiliser SignalP qui fait des prédiction pour différents organismes. N'oubliez pas que E. chrysanthemi, E. coli et Y. pestis sont des bactéries Gramm-.
Ce site limite le nombre d'interrogations d'un même domaine Internet (Etablissement) effectuées dans une journée. Je vous donne les résultats pour ceux qui n'ont pas pu accéder au site.

4. Etude de réseaux cellulaires.

La banque KEGG (Kyoto Encyclopedia of Genes and Genomes) a pour ambition de représenter les interactions moléculaires qui se déroulent au sein des cellules, de la façon la plus générale possible.

Au contraire, Ecocyc propose des schémas propres à un organisme donné, E. coli. Etant donné que beaucoup d'informations sont connues sur cet organisme, la banque est très documentée : descripton précise des protéines, du gène correspondant (information sur les opérons), des voies métaboliques, de la régulation des gènes, ... Maintenant, cette banque a été étendue à d'autres organismes.

Dans KEGG, cliquez sur le lien "KEGG2 - table of content", puis sur le lien "Pathway" de la colonne "DBGET search" du premier tableau. Tapez alors les mots-clés dans la zone de saisie pour essayer de trouver les protéines non vues dans EcoCyc.

Vous pouvez aller faire un petit tour du côté de biocarta pour étudiez les pathways des eucaryotes.

De même vous pouvez aller interroger les GO terms (Gene Ontology) avec AmiGO

III. Comparaison 1D, 2D et 3D de protéines.

Nous allons étudier trois protéines de la même famille (les globines) pour rechercher à quel niveau se situe leurs ressemblances et différences. Le but de cet exercice est de constater que des protéines différentes au niveau de leur séquence peuvent se ressembler au niveau de leur fonction et de leur structure.

Voici les séquences des 3 protéines que nous allons étudier :


>Globin I (Dimeric hemoglobin)
PSVYDAAAQLTADVKKDLRDSWKVIGSDKKGNGVALMTTLFADNQETIGYFKRLGDVSQG
MANDKLRGHSITLMYALQNFIDQLDNPDDLVCVVEKFAVNHITRKISAAEFGKINGPIKK
VLASKNFGDKYANAWAKLVAVVQAAL
>Leghemoglobin II
GALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQNNPEL
QAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKGVADAHFPVVKEAILKTIKE
VVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA
>Myoglobin
VLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASED
LKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHP
GDFGADAQGAMNKALELFRKDIAAKYKELGYQG
1. Etude et comparaison des structures 1D (séquences).
-> Significativité des alignements.

J'ai fait tourner pour vous le logiciel PRSS qui évalue la significativité d'un alignement de deux séquences. Voici les résultats obtenus pour les 3 paires possibles :

-> Identification des familles protéiques.

Par alignement, le fait que ces protéines soient de la même famille n'est pas flagrant. Particulièrement, la léghemoglobine ne ressemble pas aux deux autres. La banque InterPro permet d'identifier des domaines protéiques, mais peut aussi indiquer à quelle famille appartient une protéine. Ces prédictions sont uniquement basées sur la séquence primaire des protéines.

2. Etude et comparaison de la structure 2D.

Utilisez le programme du site NPSA pour prédire la structure 2D de chacune des 3 protéines.

J'ai extrait des résultats de prédiction de structure 2D, le consensus obtenu pour chaque structure. Pour les colonnes non résolues (notées à l'aide d'un point d'interrogation), j'ai décidé arbitrairement de leur affectuer la lettre qui précède cette postion. Enfin, j'ai lancé Clustal sur ces séquences de structures en choisissant la matrice identité. Voici l'alignement que j'ai obtenu.

3. Visualisation de structure 3D.

Plusieurs logiciels gratuits sont disponibles pour visualiser des structures 3D de protéines décrites dans des formats particuliers. Il existe trois formats principaux en biologie :

Nous allons travailler avec le logiciel Deep View. Il est peut-être installé sur vos machines. Sinon, il faut le faire en le téléchargeant à partir du site : http://www.expasy.org/spdbv/.

Voici une description rapide du logiciel. Il est découpé en plusieurs fenêtres :

Je vous donne les structures 3D trouvées expérimentalement pour les 3 protéines :

Vous pouvez visualiser ces structures à l'aide du logiciel SPDBV, après les avoir enregistrées sur votre ordinateur.

4. Alignement de structures 3D.

Suivez les instructions suivantes pour effectuer un alignement structural des trois protéines, à l'aide du visualisateur Deep View :

5. Conclusion.

Des protéines qui se ressemblent peu au niveau de leur séquence peuvent être de la même famille fonctionnelle et se ressembler beaucoup au niveau de leur structure 3D.


Last modified: Tue May 16 09:47:09 CEST 2006