Nous allons étudier trois protéines : une protéine de Escherichia coli qui porte deux fonctions (EC 4.1.1.48 et EC 5.3.1.24) et deux protéines de Xylella fastidiosa qui portent chacune une de ces deux fonctions :
>trpC, EC:4.1.1.48 et 5.3.1.2, E. coli
MMQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASP
SKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFQGSFNFLPIVSQIAPQPILCKDFIID
PYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAK
VVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSAL
MAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEV
MAAAPLQYVGVFRNHDIADVVDKAKVLSLAAVQLHGNEEQLYIDTLREALPAHVAIWKAL
SVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQSLGNVLLAGGLGADNCVEAAQT
GCAGLDFNSAVESQPGIKDARLLASVFQTLRAY
>EC:5.3.1.24, xfa
MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA
IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA
GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV
FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA
>EC:4.1.1.48, xfa
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI
KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR
KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA
IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA
FLVGEAFMRATEPGESLREMFFIT
La protéine de E. coli possède la fonction enzymatique EC 4.1.1.48 au début et la fonction enzymatique EC 5.3.1.24 à la fin de sa séquence. Nous allons tester si les programmes d'alignement multiple retrouvent bien cette configuration. Alignez les trois séquences à l'aide de chacun des trois programmes. Pour Dialign, le menu de droite (onglet "submission") vous permet de soumettre votre requête.
Quels sont parmi les trois programmes ceux qui construisent l'alignement multiple attendu ?
En modifiant les paramètres de Dialign, il est possible d'améliorer la qualité de l'alignement. Dialign recherche des régions de forte ressemblance entre les séquences pour ancrer son alignement. Le paramètre T permet d'agir sur la sélection de ces régions. En augmentant la valeur de T, on force Dialign à choisir des régions de plus forte ressemblance.
Testez Dialign avec la valeur 4 pour T
Nous allons étudier une famille de protéines au sein d'un même génome, avec un ensemble de séquences très conservées (duplication de gènes) et un gène ayant une fonction proche, mais une séquence éloignée.
Retrouvez grâce à Entrez les séquences qui portent les numéros d'accession : P0CX20 P32580 O13559 P40105 P0CX14 P53819 avec la requête
P0CX20 [ACCESSION] OR P32580 [ACCESSION] OR O13559 [ACCESSION] OR P40105 [ACCESSION] OR P0CX14 [ACCESSION] OR P53819[ACCESSION]
Quel quel organisme proviennent ces séquences ?
Quelle est la fonction de ces protéines ?
Mémorisez les séquences de ces protéines au format FASTA et gardez la liste de résultats ouverte.
Effectuez un alignement multiple de ces séquences à l'aide des trois programmes ClustalW, Dialign et MultAlign.
Est-ce que les alignements trouvés sont identiques ?
Lesquels semblent les plus satisfaisants ?
Le meilleur moyen d'estimer la qualité d'un alignement est de vérifier si les régions connues pour avoir la même fonction biologique sont bien alignées entre elles.
Pour chaque résultat, sur Entrez, il existe un lien "Analyze this sequence" -> "Identify Conserved Domains" qui se trouve sur la droite. Ce lien mène à un schéma qui localise les domaines protéiques connus pour cette entrée.
Quels sont les domaines communs aux différentes séquences ?
Quelles sont leurs positions (approximatives) sur la séquence P32580 ?
Quelles sont leurs positions sur une des 5 autres séquences ?
Repérez ces domaines dans les alignements obtenus précédemment. Puis vérifiez que les régions contenant ces domaines sont bien alignées les unes avec les autres.
Quels sont les programmes d'alignement multiple qui alignent correctement les domaines fonctionnels ?
Ces exercices portent sur l'étude de motifs biologiques que ce soit dans les séquences ADN ou protéiques. Le fil conducteur de ce TP est l'étude d'une famille de facteurs de transcription qui possèdent un motif de type "basic leucine zipper" (bZIP). On notera que les protéines humaines appartenant à cette famille sont peu conservées.
Il existe plusieurs représentations possibles pour un motif biologique (ex : pseudo-expression régulière, profile, HMM, alignement, ...). Nous allons essayer de construire un motif de type pseudo-expression régulière sur les 43 protéines suivantes :
Déterminer les positions approximatives de début et de fin de la région conservée entre les séquences de cette famille.
Trouvez l'entrée Prosite correspondant au motif bZIP.
Recopiez l'expression régulière modélisant le motif.
Pour identifier plus facilement la conservation des colonnes, il est possible d'utiliser la représentation WebLogo.
Collez l'alignement multiple donné précédemment au format FASTA. Pour une meilleure lisibilité des résultats, nous allons limiter l'affichage à la région qui contient le motif bZIP à l'aide de l'option "Logo Range:" (positions définies précédemment).
Est-ce que des colonnes bien conservées sont visibles ?
Est-ce que l'on retrouve plus facilement l'expression régulière bZIP dans cette représentation ?
Est-ce qu'une amélioration de l'alignement peut être envisagée pour se rapprocher du motif bZIP ?
Gardez cette image ouverte.
Lorsque l'on observe le WebLogo de la partie conservées de l'alignement, on remarque des colonnes qui pourraient corrigées. Par exemple, le début de l'expression régulière de bZIP indique un K ou un R suivit d'une à trois positions non conservées. Or, les colonnes 675 et 676 contiennent toutes les deux un grand nombre de K et de R. Il est possible que le décalage de certaines colonnes puisse permettre de regrouper les K et les R ensemble.
Téléchargez l'alignement multiple au format FASTA des séquences de la famille bZIP. Ouvrer le ensuite avec le logiciel SeaView que vous installerez sur votre ordinateur. C'est un visualisateur et un éditeur d'alignement multiple.
Dans le menu "Prop" de SeaView, sélectionnez "Allow seq. edtion", puis
essayez de modifier l'alignement multiple afin de mieux
respecter l'expression régulière de bZIP (ne passez pas trop
de temps sur cette tâche).
Est-ce une tâche facile et rapide à faire ?
Pratt recherche des motifs communs à un ensemble de séquences ADN ou protéiques non alignées, sous la forme de pseudo-expressions régulières. Lancez Pratt sur les séquences non alignées de la famille bZIP fournies ci dessus, en décochant "Directly submit best pattern to ScanProsite".
Est-ce que Pratt retrouve des motifs qui vous semblent pertinents par rapport
à ce qu'il peut être vu à l'aide de WebLogo (l'alignement)
? Attention, les motifs d'intérêt trouvés par Pratt se situent
dans la partie "Best Patterns (after refinement phase):"
Est-ce que l'expression régulière de bZIP est au moins partiellement trouvée par Pratt ?
Pour vérifier si un motif est bien caractéristique d'une famille de séquences, il faut le tester contre une banque de séquences protéiques. Le plus simple est de choisir SwissProt, la banque de protéines annotées par des experts car la fonction des protéines est donnée systématiquement et est fiable. Les résultats attendus pour un bon motif sont :
Nous allons tester le bon comportement des motifs trouvés par Pratt. Le site ScanProsite permet non seulement d'étudier une séquence protéique en cherchant les motifs de la banque Prosite qu'elle contient ; mais aussi de rechercher une expression régulière (même syntaxe que Pratt) sur toutes les protéines de SwissProt.
Testez le meilleur site déterminé par Pratt contre la banque SwissProt, limitée aux séquences qui proviennent de l'Homme (option "Filter(s):" -> "On taxonomy:"). Vérifiez qu'il n'est autorisé aucun (0 au lieu de 1) X dans les positions conservées du "pattern". Enfin, dans la partie "Format", choisissez le mode "Plain text" pour accélérer l'affichage des résultats.
Combien d'entrées sont trouvées ?
Est-ce plus ou moins que le nombre de protéines humaines ayant l'expression
régulière bZIP ?
Est-ce que l'on retrouve uniquement des séquences ayant la fonction
facteur de transcription à motif bZIP ?
On ne vous demande pas si toutes les protéines humaines de la famille bZIP
sont bien retrouvées, mais en principe il faudrait le vérifier.
Par défaut, Pratt recherche des motifs conservés dans toutes les séquences données en entrée. Mais, les motifs les plus pertinents ne sont pas toujours bien conservés dans l'ensemble des séquences de départ. Il est possible de diminuer le "pourcentage minimum de séquences à apparier" à 80% ...
Est-ce les motifs trouvés semblent plus pertinents que ceux trouvés avec 100%
des séquences à apparier ?
Relancer une recherche du meilleur motif trouvé par Pratt dans les séquences
humaines de SwissProt (n'oubliez pas de prendre celui de la liste "Best Patterns
(after refinement phase):"). Est-ce que la qualité du motif est meilleure?
Est-ce que les nouveaux motifs trouvés par Pratt correspondent au moins
en partie au motif Prosite?
Maintenant que nous avons étudié les protéines, nous allons étudier le site de fixation d'un facteur de transcription de la famille bZIP : AP1_human.
Nous allons rechercher dans la banque EMBL, à l'aide du formulaire étendu (il doit ressembler à ceci) de SRS, des sites de fixation de AP1 qui ont été déterminés expérimentalement. Pour cela, nous allons effectuer deux requêtes que nous allons ensuite combiner.
Dans un premier temps, recherchez toutes les sous-entrées humaines dont le champ
FtKey a pour valeur protein_bind, le
champ FtQualifier a pour
valeur bound_moiety
et le champ FtDescription a pour valeur AP-1, c'est-à-dire les sous-entrées qui
correspondent aux séquences reconnues par le facteur AP-1.
Dans un deuxième temps, recherchez toutes les sous-entrées humaines dont le champ
FtKey a pour valeur protein_bind, le
champ FtQualifier a pour
valeur experiment,
et le champ FtDescription a pour valeur experimental, c'est-à-dire les sous-entrées
qui correspondent aux séquences reconnues par une protéine et déterminées
expérimentalement.
Pour finir, combinez en faisant l'intersection de ces deux requêtes à l'aide de l'opérateur (AND), dans la page d'historique (onglet "Results").
[réponse1, réponse2, réponse1Intersect2]
Combien de sites AP-1 sont annotés dans les séquences humaines ?
Combien proviennent de données expérimentales ?
Notez la position du site AP-1 dans l'entrée AF077374 car nous allons
étudier cette entrée par la suite.
Nous allons construire manuellement une expression régulière représentant ce site de fixation. Pour cela, nous allons utiliser le jeu de données précédent (mais limité en nombre de séquences) :
[séquences et alignement].
Faites le WebLogo à partir de l'alignement en demandant également d'agrandir l'image à 36 X 10 cm pour une meilleure lisibilité.
Est-ce que le motif est bien conservé sur toutes les postions ?
Quelle expression régulière peut-on définir à partir de cette représentation ?
Rechercher l'expression régulière déterminée à partir du WebLogo contre le l'entrée AF077374 qui contient un site de fixation AP-1 déterminé expérimentalement. Nous allons utiliser le logiciel Fuzznuc
Vous pouvez lancer Fuzznuc avec votre expression régulière du type Prosite et
préciser qu'elle est recherchée contre
l'entrée AF077374 de la
banque embl. Précisez également que la recherche
doit être faite sur les deux brins ("Search complementary
strand").
Combien de fois l'expression régulière est trouvée dans l'entrée ?
Est-ce que le site déterminé expérimentalement a été trouvé ?
Si ce n'est pas le cas, recherchez quelle en est la raison et modifiez
l'expression régulière pour le trouver.
Combien de sites trouvez-vous à présent ?
La représentation d'un site est plus fiable si l'on passe par un profil plutôt qu'une expression régulière. Toujours sur le site http://mobyle.pasteur.fr, construisez un profil du type Gribskov à partir de l'alignement à l'aide de Prophecy. Une fois le profil créé, vous pouvez le rechercher dans l'entrée AF077374 à l'aide de Prophet.
Quelle est la taille du profil construit ?
Est-il plus long que l'expression régulière ? Pourquoi ?
Combien de fois le profil est trouvé dans la séquence de l'entrée ?
Est-ce que le profil est plus stringeant (strict) que l'expression régulière ?
Est-ce que tous les sites trouvés par le profil sont également trouvés
par l'expression régulière ?
Est-ce que le site déterminé expérimentalement est trouvé par le profil ?
Nous allons dans cette partie calculer la structure secondaire (appariements simples sans chevauchements) d'une séquence d'ARN ribosomique 5S.
Vous allez calculer la structure secondaire de l'ARNr 5S suivant:
>Hyphomicrobium
GACCUGGUGAUUAUGGCGGGGUGGCUGCACCCGAUCCCAUUCCGAACUCGGCCGUGAAACGCCCCUGCGC
CGAUGGUACUUCGUCUUAAGACGCGGGAGAGUAGGUCGUUGCCAGGUCU
Pour cela, accedez à la page principale de mfold, selectionnez le lien RNA Folding Form de la partie Applications, entrez votre séquence dans la zone prévue à cet effet et lancer le calcul (bouton Fold RNA). Dans la page de résultats, consultez la partie View Individual Structure.
Quelle est l'énergie molaire de la 1ere structure optimale?
Y a t'il un écart important entre cette énergie et celle obtenue pour la deuxième structure?
Pour chaque structure optimale ou sous optimale, vous avez accès à un image (format jpg,png,...). Nous allons nous concentrer sur les deux premières structures prédites et les comparer: ouvrez pour cela dans deux fenetres ces images afin de les visualiser sur le même écran. Vous les conserverez pour la suite de cet exercice.
La tige formée par les appariement les plus proches des extrémités 5'-3' (marqué par les symboles 5' et 3') est-elle la même entre les deux prédictions?
Quel appariement "non canonique" apparaît (marqué en vert) en haut de cette tige commune aux deux structures? Pourquoi est-il "non-canonique"?
Vous pouvez consultez rapidement le reste de la structure et constater que le reste de la prédiction diffère très partiellement. Notez que:
Quels appariements sont unique à chacune des deux structures? (en terme de paires de positions)? Consultez en particulier la position 40.
La prédiction de l'énergie libre sur une seule séquence ne donne pas toujours de résultats satisfaisants. D'autant qu'il n'est pas garanti que ce soit toujours la structure d'énergie libre minimale qui soit la meilleure ... Afin d'évitez ces biais, nous allons désormais faire la prédiction de structure, non pas sur une séquence, mais sur plusieurs qui possèdent la même structure, en construisant leur alignement multiple et en utilisant l'information de covariation contenue.
>Hyphomicrobium GACCUGGUGAUUAUGGCGGGGUGGCUGCACCCGAUCCCAUUCCGAACUCGGCCGUGAAAC GCCCCUGCGCCGAUGGUACUUCGUCUUAAGACGCGGGAGAGUAGGUCGUUGCCAGGUCU >Hyphomonas_oligotropha GACCCGGUGGUUAUGGCCAGGGAUCCCCACCUGAUCCCAUCCCGAACUCAGUCGUUAAGU CCCCUUGCGCCAAUGGUACUACGUCUUAAGGCGUGGGAGAGUAGGUCGCUGCCGGGUCC >Rhizobium_leguminosarum CGACCUGGUGGUUAUGGCGGGGUGGCUGCACCCGUUCCCUUUCCGAACACGGCCGUGAAA CGCCCCUGCGCCCAUGGUACUUCGUCUUAAGACGCGGGAGAGUAGGUCGCUGCCAGGUCU >Ochrobactrum_anthropi CGACCUGGUGGUUAUGGCGGAGCGGCUGCACCCGAUCCCAUUCCGAACUCGGCCGUGAAA CGCUCCAGCGCCAAUGGUACUUUGUCUUAAGACACGGGAGAGUAGGUCGCUGCCAGGUC >Brucella_abortus GACCUGGUGGUUAUGGCGGAGCGGCUGCACCCGAUCCCAUUCCGAACUCGGCCGUGAAAC GCUCCAGCGCCAAUGGUACUUCGUCUCAAGACGCGGGAGAGUAGGUCGCUGCCAGGUCU >Xanthomonas_campestris UCCCUGGUGAAAUUAGCGCUGUGGAACCACCCGAUCCCAUCCCGAACUCGGAAGUGAAAC GCAGCUGCGCCGAUGGUAGUGUGGCUCAAGCCAUGCGAGAGUAGGUCAUCGCCAGGGGC
Réalisez l'alignement multiple des séquences d'ARNr 5S à l'aide de ClustalW. Conservez le résultat et utilisez le pour prédire la structure conservée commune à l'aide de RNAz. Dans la page résultat, consultez la figure de la structure secondaire (Attention : la séquence représentée n'est pas votre séquence, mais le consensus de l'alignement).
La structure prédite est-elle différente des deux précédentes?
Afin de valider les résultats trouvés précédement, nous allons comparer les structures calculées avec celle connues dans la banque RFAM
Recherchez l'ARN ribosoma 5S dans la banque RFAM : pour cela cliquez sur le lien View An Rfam Family, et lancez la recherche sur 5S_rRNA.
A laquelle des structures précédement calculées la structure modèle ressemble t'elle le plus?
Qu'en deduisez vous de la robustesse de la prédiction multiple?