DEUG SV - Génétique et Bioinformatique

TP5 : prédiction de structures d'ARN



Les gènes thiCOGE, présents dans les bactéries à Gram positif et à Gram négatif, codent pour des enzymes impliquées dans la biosynthèse de la thiamine. Ils sont eux-mêmes réprimés par la thiamine. L'étude de la région 5' UTR (UnTranslated Region) des ARN messagers des gènes thiCOGE a permis de mettre en évidence la présence d'une séquence de plusieurs dizaines de nucléotides, appelées boîte thi, dont la délétion perturbe le mécanisme de régulation. Le but du TP est de comprendre quel est le rôle des boîtes thi.

Vous allez travailler avec ce jeu de quatre séquences.

          >AP004597/219374-219477  
          AAAGCCUGCAAGGGGAGCCAUAUGGCUGAGAGUGGACGUAUAAUGUUCUGACCCUUUGAACCUGUUAG
          UUAGUACUAGCGUAGGGAUUGUAGUCUUUUUGAUGG
          >AP004594/205048-204933
          AGCAACUACUAGGGGUGCCCAGUACUAUGUGUGGGCUGAGAGGAAAGCACCUACUUUCCGACUCUUAU
          GGACCUGAUCUGGUUAAUACCAGCGUAGGGAAGUAGUCAAUAAUUUUG
          >AP003194/209972-209869  
          CUUUAUAGCUAGGGGUGCCUUUGGCUGAGAGAUAACAUUUCGUUAUUAACCCUUAAAACCUGAUCUG
          GAUAAUACCAGCGUAGGAAAGCCUGUAGAAAGUUUUA
          >AJ002571/43977-43865    
          GGAAAGCACUAGGGGUGCUGUUUUGGCUGAGAUAAAGCGCGGAAGAAACGCGCUUUGAUCCCUUAUG
          ACCCGAUCUGGAUAAUACCAGCGUGGGGAAGUGCAGGUUGACCGAA

Question 1. En cours, vous avez appris que la première chose à faire pour analyser des séquences était de construire des alignements. Faites des alignements locaux 2 à 2 entre les séquences avec Water. Quelle est la conclusion ?

Apparemment, il n'y a pas de conservation au niveau de la structure primaire. Une autre piste est de chercher si les boites thi n'exerceraient pas leur fonction en formant une structure secondaire. Il existe des outils bioinformatiques pour prédire la structure d'un ARN à partir de sa séquence. Le programme MFOLD, par exemple, fait cela. Plus précisément, il permet pour une séquence donnée de construire plusieurs structures possibles. Derrière MFOLD, il y a un modèle thermo-dynamique qui évalue la stabilité d'une structure secondaire à travers le calcul de son énergie libre. Le principe est le suivant:

Les structures sélectionnées par MFOLD sont celles qui sont les plus stables, avec l'énergie la plus faible, pour ce modèle.

Question 2. Lancez MFOLD sur la première séquence. Veillez à donner un nom à la séquence, de manière à pouvoir exploiter les résultats plus facilement par la suite. Avec le bouton droit de la souris, sauvegardez les structures trouvées, au format jpeg.

Question 3. Recommencez avec la deuxième et la troisième séquence. Parmi les structures potentielles, trouvez-vous une structure commune ?

Question 4. Utilisez finalement MFOLD pour la dernière séquence. Que constatez-vous?

En fait, le nombre de structures proposées par MFOLD dépend du paramètre percent optimality number. Par défaut ce paramètre est égal à 5%, ce qui signifie que MFOLD sélectionne les structures dont l'énergie se situe dans une marge de 5% par rapport à l'énergie de la structure optimale, celle classée en premier. Il est possible d'obtenir davantage de repliements en augmentant la valeur de ce paramètre.

Question 5. Relancez MFOLD sur la quatrième séquence en prenant 10% pour le paramètre percent optimality number. Vous devez voir que la structure commune apparait.

Vérifiez avec moi que votre structure candidate est la bonne. Vous pouvez mettre à la poubelle les fichiers correspondant aux autres prédictions.

L'objectif suivant est d'essayer d'avoir des garanties sur la validité de la structure consensus trouvée. Cela peut se faire par deux moyens : en regardant la cohérence des structures vis-à-vis des éventuels motifs communs, et en regardant s'il y a des covariations.

Vous avez constaté à la première question de ce TP que les structures primaires ne présentaient pas de conservation particulière. On peut toutefois chercher s'il n'y aurait de courts motifs conservés entre toutes les séquences.

Question 6. Faites un alignement multiple avec ClustalW. Sur l'alignement, vous devez repérez deux blocs distincts de 5 nucléotides parfaitement conservés. Sauvegardez l'alignement dans un éditeur de texte.

Question 7. Repérez les deux motifs sur chacune des quatre structures candidates. Les motifs se placent-ils de manière cohérentes avec les structures ?

Question 8. Plus globalement, l'alignement proposé par Clustalw respecte-t-il les correspondances entre les structures secondaires ?

Question 9. Modifiez l'alignement à la main, de manière à aligner les tiges entre-elles. Pour faire appraitre la structure consensus, il est possible d'ajouter une ligne d'information qui contient cette structure. Par convention, dans un appariement la base en 5' est indiquée par un crochet ouvrant "<" et la base en 3' par un crochet fermant ">".

Question 10. Les covariations sont le fruit de mutations compensatoires au sein d'un appariement. La présence de covariations entre plusieurs structures prédites conforte la prédiction. En regardant votre alignement ou les différentes prédictions, voyez-vous des covariations? Normalement, pour être fiable, la recherche de covariations demande de disposer de davantage de séquences. Mais dans le cadre de ce TP, quatre séquences suffiront.

En conclusion

Il semblerait que les boites thi partagent bien une structure secondaire commmune. Cela rejoint les résultats de l'article A conserved RNA structure (thi box) is involved in regulation of thiamin biosynthetic gene expression in bacteria. L'hypothèse est que cette structure se forme uniquement en présence de thiamine, empêchant ainsi la liaison du messager au ribosome.


Helene.Touzet@lifl.fr - USTL