Alignement multiple et motifs biologiques

Liens utiles

Alignement multiple

Alignement de protéines avec de longs gaps

Nous allons étudier trois protéines : une protéine de Escherichia coli qui porte deux fonctions (EC 4.1.1.48 et EC 5.3.1.24) et deux protéines de Xylella fastidiosa qui portent chacune une de ces deux fonctions :

>trpC, EC:4.1.1.48 et 5.3.1.2, E. coli
MMQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASP
SKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFQGSFNFLPIVSQIAPQPILCKDFIID
PYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAK
VVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSAL
MAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEV
MAAAPLQYVGVFRNHDIADVVDKAKVLSLAAVQLHGNEEQLYIDTLREALPAHVAIWKAL
SVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQSLGNVLLAGGLGADNCVEAAQT
GCAGLDFNSAVESQPGIKDARLLASVFQTLRAY

>EC:5.3.1.24, xfa
MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA
IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA
GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV
FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA

>EC:4.1.1.48, xfa
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI
KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR
KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA
IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA
FLVGEAFMRATEPGESLREMFFIT
      

La protéine de E. coli possède la fonction enzymatique EC 4.1.1.48 au début et la fonction enzymatique EC 5.3.1.24 à la fin de sa séquence. Nous allons tester si les programmes d'alignement multiple retrouvent bien cette configuration. Alignez les trois séquences à l'aide de chacun des trois programmes. Pour Dialign, le menu de droite (onglet "submission") vous permet de soumettre votre requête.

Quels sont parmi les trois programmes ceux qui construisent l'alignement multiple attendu ?

En modifiant les paramètres de Dialign, il est possible d'améliorer la qualité de l'alignement. Dialign recherche des régions de forte ressemblance entre les séquences pour ancrer son alignement. Le paramètre T permet d'agir sur la sélection de ces régions. En augmentant la valeur de T, on force Dialign à choisir des régions de plus forte ressemblance.

Testez Dialign avec la valeur 4 pour T

Étude d'une famille de protéines

Nous allons étudier une famille de protéines au sein d'un même génome, avec un ensemble de séquences très conservées (duplication de gènes) et un gène ayant une fonction proche, mais une séquence éloignée.

Retrouvez grâce à Entrez les séquences qui portent les numéros d'accession : P0CX20 P32580 O13559 P40105 P0CX14 P53819 avec la requête

P0CX20 [ACCESSION] OR P32580 [ACCESSION] OR O13559 [ACCESSION] OR P40105 [ACCESSION] OR P0CX14 [ACCESSION] OR P53819[ACCESSION]

Quel quel organisme proviennent ces séquences ?
Quelle est la fonction de ces protéines ?

Mémorisez les séquences de ces protéines au format FASTA et gardez la liste de résultats ouverte.

1. Alignement multiple.

Effectuez un alignement multiple de ces séquences à l'aide des trois programmes ClustalW, Dialign et MultAlign.

Est-ce que les alignements trouvés sont identiques ?
Lesquels semblent les plus satisfaisants ?

2. Qualité de l'alignement.

Le meilleur moyen d'estimer la qualité d'un alignement est de vérifier si les régions connues pour avoir la même fonction biologique sont bien alignées entre elles.

Pour chaque résultat, sur Entrez, il existe un lien "Analyze this sequence" -> "Identify Conserved Domains" qui se trouve sur la droite. Ce lien mène à un schéma qui localise les domaines protéiques connus pour cette entrée.

Quels sont les domaines communs aux différentes séquences ?
Quelles sont leurs positions (approximatives) sur la séquence P32580 ?
Quelles sont leurs positions sur une des 5 autres séquences ?

Repérez ces domaines dans les alignements obtenus précédemment. Puis vérifiez que les régions contenant ces domaines sont bien alignées les unes avec les autres.

Quels sont les programmes d'alignement multiple qui alignent correctement les domaines fonctionnels ?


Modélisation des motifs biologiques

Ces exercices portent sur l'étude de motifs biologiques que ce soit dans les séquences ADN ou protéiques. Le fil conducteur de ce TP est l'étude d'une famille de facteurs de transcription qui possèdent un motif de type "basic leucine zipper" (bZIP). On notera que les protéines humaines appartenant à cette famille sont peu conservées.

Détermination d'un motif caractéristique d'une famille de protéines.

Il existe plusieurs représentations possibles pour un motif biologique (ex : pseudo-expression régulière, profile, HMM, alignement, ...). Nous allons essayer de construire un motif de type pseudo-expression régulière sur les 43 protéines suivantes :

Déterminer les positions approximatives de début et de fin de la région conservée entre les séquences de cette famille.

Trouvez l'entrée Prosite correspondant au motif bZIP.
Recopiez l'expression régulière modélisant le motif.

1. Lecture de l'alignement à l'aide de WebLogo

Pour identifier plus facilement la conservation des colonnes, il est possible d'utiliser la représentation WebLogo.

Collez l'alignement multiple donné précédemment au format FASTA. Pour une meilleure lisibilité des résultats, nous allons limiter l'affichage à la région qui contient le motif bZIP à l'aide de l'option "Logo Range:" (positions définies précédemment).

Est-ce que des colonnes bien conservées sont visibles ?
Est-ce que l'on retrouve plus facilement l'expression régulière bZIP dans cette représentation ?
Est-ce qu'une amélioration de l'alignement peut être envisagée pour se rapprocher du motif bZIP ?
Gardez cette image ouverte.

2. Retour à l'alignement.

Lorsque l'on observe le WebLogo de la partie conservées de l'alignement, on remarque des colonnes qui pourraient corrigées. Par exemple, le début de l'expression régulière de bZIP indique un K ou un R suivit d'une à trois positions non conservées. Or, les colonnes 675 et 676 contiennent toutes les deux un grand nombre de K et de R. Il est possible que le décalage de certaines colonnes puisse permettre de regrouper les K et les R ensemble.

Téléchargez l'alignement multiple au format FASTA des séquences de la famille bZIP. Ouvrer le ensuite avec le logiciel SeaView que vous installerez sur votre ordinateur. C'est un visualisateur et un éditeur d'alignement multiple.

Dans le menu "Prop" de SeaView, sélectionnez "Allow seq. edtion", puis essayez de modifier l'alignement multiple afin de mieux respecter l'expression régulière de bZIP (ne passez pas trop de temps sur cette tâche).
Est-ce une tâche facile et rapide à faire ?

3. Méthode d'extraction d'un motif.

Pratt recherche des motifs communs à un ensemble de séquences ADN ou protéiques non alignées, sous la forme de pseudo-expressions régulières. Lancez Pratt sur les séquences non alignées de la famille bZIP fournies ci dessus, en décochant "Directly submit best pattern to ScanProsite".

Est-ce que Pratt retrouve des motifs qui vous semblent pertinents par rapport à ce qu'il peut être vu à l'aide de WebLogo (l'alignement) ? Attention, les motifs d'intérêt trouvés par Pratt se situent dans la partie "Best Patterns (after refinement phase):"
Est-ce que l'expression régulière de bZIP est au moins partiellement trouvée par Pratt ?

4. Vérification de la qualité d'un motif.

Pour vérifier si un motif est bien caractéristique d'une famille de séquences, il faut le tester contre une banque de séquences protéiques. Le plus simple est de choisir SwissProt, la banque de protéines annotées par des experts car la fonction des protéines est donnée systématiquement et est fiable. Les résultats attendus pour un bon motif sont :

Nous allons tester le bon comportement des motifs trouvés par Pratt. Le site ScanProsite permet non seulement d'étudier une séquence protéique en cherchant les motifs de la banque Prosite qu'elle contient ; mais aussi de rechercher une expression régulière (même syntaxe que Pratt) sur toutes les protéines de SwissProt.

Testez le meilleur site déterminé par Pratt contre la banque SwissProt, limitée aux séquences qui proviennent de l'Homme (option "Filter(s):" -> "On taxonomy:"). Vérifiez qu'il n'est autorisé aucun (0 au lieu de 1) X dans les positions conservées du "pattern". Enfin, dans la partie "Format", choisissez le mode "Plain text" pour accélérer l'affichage des résultats.

Combien d'entrées sont trouvées ?
Est-ce plus ou moins que le nombre de protéines humaines ayant l'expression régulière bZIP ?
Est-ce que l'on retrouve uniquement des séquences ayant la fonction facteur de transcription à motif bZIP ?
On ne vous demande pas si toutes les protéines humaines de la famille bZIP sont bien retrouvées, mais en principe il faudrait le vérifier.

Par défaut, Pratt recherche des motifs conservés dans toutes les séquences données en entrée. Mais, les motifs les plus pertinents ne sont pas toujours bien conservés dans l'ensemble des séquences de départ. Il est possible de diminuer le "pourcentage minimum de séquences à apparier" à 80% ...

Est-ce les motifs trouvés semblent plus pertinents que ceux trouvés avec 100% des séquences à apparier ?
Relancer une recherche du meilleur motif trouvé par Pratt dans les séquences humaines de SwissProt (n'oubliez pas de prendre celui de la liste "Best Patterns (after refinement phase):"). Est-ce que la qualité du motif est meilleure?
Est-ce que les nouveaux motifs trouvés par Pratt correspondent au moins en partie au motif Prosite?

Etude d'un site de fixation de facteur de transcription.

Maintenant que nous avons étudié les protéines, nous allons étudier le site de fixation d'un facteur de transcription de la famille bZIP : AP1_human.

1. Recherche de sites validés expérimentalement.

Nous allons rechercher dans la banque EMBL, à l'aide du formulaire étendu (il doit ressembler à ceci) de SRS, des sites de fixation de AP1 qui ont été déterminés expérimentalement. Pour cela, nous allons effectuer deux requêtes que nous allons ensuite combiner.

Dans un premier temps, recherchez toutes les sous-entrées humaines dont le champ FtKey a pour valeur protein_bind, le champ FtQualifier a pour valeur bound_moiety et le champ FtDescription a pour valeur AP-1, c'est-à-dire les sous-entrées qui correspondent aux séquences reconnues par le facteur AP-1.

Dans un deuxième temps, recherchez toutes les sous-entrées humaines dont le champ FtKey a pour valeur protein_bind, le champ FtQualifier a pour valeur experiment, et le champ FtDescription a pour valeur experimental, c'est-à-dire les sous-entrées qui correspondent aux séquences reconnues par une protéine et déterminées expérimentalement.

Pour finir, combinez en faisant l'intersection de ces deux requêtes à l'aide de l'opérateur (AND), dans la page d'historique (onglet "Results").

[réponse1, réponse2, réponse1Intersect2]

Combien de sites AP-1 sont annotés dans les séquences humaines ?
Combien proviennent de données expérimentales ?
Notez la position du site AP-1 dans l'entrée AF077374 car nous allons étudier cette entrée par la suite.

2. Détermination d'une expression régulière représentant le site.

Nous allons construire manuellement une expression régulière représentant ce site de fixation. Pour cela, nous allons utiliser le jeu de données précédent (mais limité en nombre de séquences) :

[séquences et alignement].

Faites le WebLogo à partir de l'alignement en demandant également d'agrandir l'image à 36 X 10 cm pour une meilleure lisibilité.

Est-ce que le motif est bien conservé sur toutes les postions ?
Quelle expression régulière peut-on définir à partir de cette représentation ?

3. Recherche de l'expression régulière déterminée.

Rechercher l'expression régulière déterminée à partir du WebLogo contre le l'entrée AF077374 qui contient un site de fixation AP-1 déterminé expérimentalement. Nous allons utiliser le logiciel Fuzznuc

Vous pouvez lancer Fuzznuc avec votre expression régulière du type Prosite et préciser qu'elle est recherchée contre l'entrée AF077374 de la banque embl. Précisez également que la recherche doit être faite sur les deux brins ("Search complementary strand").

Combien de fois l'expression régulière est trouvée dans l'entrée ?
Est-ce que le site déterminé expérimentalement a été trouvé ?
Si ce n'est pas le cas, recherchez quelle en est la raison et modifiez l'expression régulière pour le trouver.
Combien de sites trouvez-vous à présent ?

4. Construction et recherche d'un profil.

La représentation d'un site est plus fiable si l'on passe par un profil plutôt qu'une expression régulière. Toujours sur le site http://mobyle.pasteur.fr, construisez un profil du type Gribskov à partir de l'alignement à l'aide de Prophecy. Une fois le profil créé, vous pouvez le rechercher dans l'entrée AF077374 à l'aide de Prophet.

Quelle est la taille du profil construit ?
Est-il plus long que l'expression régulière ? Pourquoi ?
Combien de fois le profil est trouvé dans la séquence de l'entrée ?
Est-ce que le profil est plus stringeant (strict) que l'expression régulière ?
Est-ce que tous les sites trouvés par le profil sont également trouvés par l'expression régulière ?
Est-ce que le site déterminé expérimentalement est trouvé par le profil ?

Structure secondaire d'un ARN à partir de l'énergie libre/énergie libre et covariation

Nous allons dans cette partie calculer la structure secondaire (appariements simples sans chevauchements) d'une séquence d'ARN ribosomique 5S.

  1. Pour cela nous utiliserons dans un premier temps le logiciel mfold, qui réalise ce calcul en minimisant l'énergie libre de la structure secondaire de la molécule d'ARN selon le modèle de Turner.
  2. Dans un second temps, nous essayerons d'améliorer la prédiction précédente en utilisant non pas une mais plusieurs séquences : on calculera un alignement multiple de ces séquences, alignement qui sera ensuite exploité par le logiciel RNAz, pour prédire la structure secondaire conservée commune à ces séquences alignées.
  3. Enfin, nous validerons ces deux résultats en les comparant à des données connues présentes dans la base d'alignement d'ARN RFAM.

Prédictions Mfold (énergie libre seule)

Vous allez calculer la structure secondaire de l'ARNr 5S suivant:

>Hyphomicrobium
GACCUGGUGAUUAUGGCGGGGUGGCUGCACCCGAUCCCAUUCCGAACUCGGCCGUGAAACGCCCCUGCGC
CGAUGGUACUUCGUCUUAAGACGCGGGAGAGUAGGUCGUUGCCAGGUCU
      

Pour cela, accedez à la page principale de mfold, selectionnez le lien RNA Folding Form de la partie Applications, entrez votre séquence dans la zone prévue à cet effet et lancer le calcul (bouton Fold RNA). Dans la page de résultats, consultez la partie View Individual Structure.

Quelle est l'énergie molaire de la 1ere structure optimale?
Y a t'il un écart important entre cette énergie et celle obtenue pour la deuxième structure?

Pour chaque structure optimale ou sous optimale, vous avez accès à un image (format jpg,png,...). Nous allons nous concentrer sur les deux premières structures prédites et les comparer: ouvrez pour cela dans deux fenetres ces images afin de les visualiser sur le même écran. Vous les conserverez pour la suite de cet exercice.

La tige formée par les appariement les plus proches des extrémités 5'-3' (marqué par les symboles 5' et 3') est-elle la même entre les deux prédictions?
Quel appariement "non canonique" apparaît (marqué en vert) en haut de cette tige commune aux deux structures? Pourquoi est-il "non-canonique"?

Vous pouvez consultez rapidement le reste de la structure et constater que le reste de la prédiction diffère très partiellement. Notez que:

Quels appariements sont unique à chacune des deux structures? (en terme de paires de positions)? Consultez en particulier la position 40.

Prédictions RNAz (énergie libre & covariation)

La prédiction de l'énergie libre sur une seule séquence ne donne pas toujours de résultats satisfaisants. D'autant qu'il n'est pas garanti que ce soit toujours la structure d'énergie libre minimale qui soit la meilleure ... Afin d'évitez ces biais, nous allons désormais faire la prédiction de structure, non pas sur une séquence, mais sur plusieurs qui possèdent la même structure, en construisant leur alignement multiple et en utilisant l'information de covariation contenue.

>Hyphomicrobium
GACCUGGUGAUUAUGGCGGGGUGGCUGCACCCGAUCCCAUUCCGAACUCGGCCGUGAAAC
GCCCCUGCGCCGAUGGUACUUCGUCUUAAGACGCGGGAGAGUAGGUCGUUGCCAGGUCU
>Hyphomonas_oligotropha
GACCCGGUGGUUAUGGCCAGGGAUCCCCACCUGAUCCCAUCCCGAACUCAGUCGUUAAGU
CCCCUUGCGCCAAUGGUACUACGUCUUAAGGCGUGGGAGAGUAGGUCGCUGCCGGGUCC
>Rhizobium_leguminosarum
CGACCUGGUGGUUAUGGCGGGGUGGCUGCACCCGUUCCCUUUCCGAACACGGCCGUGAAA
CGCCCCUGCGCCCAUGGUACUUCGUCUUAAGACGCGGGAGAGUAGGUCGCUGCCAGGUCU
>Ochrobactrum_anthropi
CGACCUGGUGGUUAUGGCGGAGCGGCUGCACCCGAUCCCAUUCCGAACUCGGCCGUGAAA
CGCUCCAGCGCCAAUGGUACUUUGUCUUAAGACACGGGAGAGUAGGUCGCUGCCAGGUC
>Brucella_abortus
GACCUGGUGGUUAUGGCGGAGCGGCUGCACCCGAUCCCAUUCCGAACUCGGCCGUGAAAC
GCUCCAGCGCCAAUGGUACUUCGUCUCAAGACGCGGGAGAGUAGGUCGCUGCCAGGUCU
>Xanthomonas_campestris
UCCCUGGUGAAAUUAGCGCUGUGGAACCACCCGAUCCCAUCCCGAACUCGGAAGUGAAAC
GCAGCUGCGCCGAUGGUAGUGUGGCUCAAGCCAUGCGAGAGUAGGUCAUCGCCAGGGGC
 

Réalisez l'alignement multiple des séquences d'ARNr 5S à l'aide de ClustalW. Conservez le résultat et utilisez le pour prédire la structure conservée commune à l'aide de RNAz. Dans la page résultat, consultez la figure de la structure secondaire (Attention : la séquence représentée n'est pas votre séquence, mais le consensus de l'alignement).

La structure prédite est-elle différente des deux précédentes?

Comparaison des résultats à la banque RFAM

Afin de valider les résultats trouvés précédement, nous allons comparer les structures calculées avec celle connues dans la banque RFAM

Recherchez l'ARN ribosoma 5S dans la banque RFAM : pour cela cliquez sur le lien View An Rfam Family, et lancez la recherche sur 5S_rRNA.

A laquelle des structures précédement calculées la structure modèle ressemble t'elle le plus?
Qu'en deduisez vous de la robustesse de la prédiction multiple?

Page réalisée par les membres de l'équipe bonsai, mise à jour en novembre 2011