DEUG SV - Génétique et Bioinformatique Vous allez travailler avec ce jeu de quatre séquences.
>AP004597/219374-219477
AAAGCCUGCAAGGGGAGCCAUAUGGCUGAGAGUGGACGUAUAAUGUUCUGACCCUUUGAACCUGUUAG
UUAGUACUAGCGUAGGGAUUGUAGUCUUUUUGAUGG
>AP004594/205048-204933
AGCAACUACUAGGGGUGCCCAGUACUAUGUGUGGGCUGAGAGGAAAGCACCUACUUUCCGACUCUUAU
GGACCUGAUCUGGUUAAUACCAGCGUAGGGAAGUAGUCAAUAAUUUUG
>AP003194/209972-209869
CUUUAUAGCUAGGGGUGCCUUUGGCUGAGAGAUAACAUUUCGUUAUUAACCCUUAAAACCUGAUCUG
GAUAAUACCAGCGUAGGAAAGCCUGUAGAAAGUUUUA
>AJ002571/43977-43865
GGAAAGCACUAGGGGUGCUGUUUUGGCUGAGAUAAAGCGCGGAAGAAACGCGCUUUGAUCCCUUAUG
ACCCGAUCUGGAUAAUACCAGCGUGGGGAAGUGCAGGUUGACCGAA
Question 1. En cours, vous avez appris que la première chose à faire pour analyser des séquences était de construire des alignements. Faites des alignements locaux 2 à 2 entre les séquences avec Water. Quelle est la conclusion ?
Apparemment, il n'y a pas de conservation au niveau de la structure primaire. Une autre piste est de chercher si les boites thi n'exerceraient pas leur fonction en formant une structure secondaire. Il existe des outils bioinformatiques pour prédire la structure d'un ARN à partir de sa séquence. Le programme MFOLD, par exemple, fait cela. Plus précisément, il permet pour une séquence donnée de construire plusieurs structures possibles. Derrière MFOLD, il y a un modèle thermo-dynamique qui évalue la stabilité d'une structure secondaire à travers le calcul de son énergie libre. Le principe est le suivant:
Question 2. Lancez MFOLD sur la première séquence. Veillez à donner un nom à la séquence, de manière à pouvoir exploiter les résultats plus facilement par la suite. Avec le bouton droit de la souris, sauvegardez les structures trouvées, au format jpeg.
Question 3. Recommencez avec la deuxième et la troisième séquence. Parmi les structures potentielles, trouvez-vous une structure commune ?
Question 4. Utilisez finalement MFOLD pour la dernière séquence. Que constatez-vous?
En fait, le nombre de structures proposées par MFOLD dépend du paramètre percent optimality number. Par défaut ce paramètre est égal à 5%, ce qui signifie que MFOLD sélectionne les structures dont l'énergie se situe dans une marge de 5% par rapport à l'énergie de la structure optimale, celle classée en premier. Il est possible d'obtenir davantage de repliements en augmentant la valeur de ce paramètre.
Question 5. Relancez MFOLD sur la quatrième séquence en prenant 10% pour le paramètre percent optimality number. Vous devez voir que la structure commune apparait.
Vérifiez avec moi que votre structure candidate est la bonne. Vous pouvez mettre à la poubelle les fichiers correspondant aux autres prédictions.
L'objectif suivant est d'essayer d'avoir des garanties sur la validité de la structure consensus trouvée. Cela peut se faire par deux moyens : en regardant la cohérence des structures vis-à-vis des éventuels motifs communs, et en regardant s'il y a des covariations.
Vous avez constaté à la première question de ce TP que les structures primaires ne présentaient pas de conservation particulière. On peut toutefois chercher s'il n'y aurait de courts motifs conservés entre toutes les séquences.
Question 6. Faites un alignement multiple avec ClustalW. Sur l'alignement, vous devez repérez deux blocs distincts de 5 nucléotides parfaitement conservés. Sauvegardez l'alignement dans un éditeur de texte.
Question 7. Repérez les deux motifs sur chacune des quatre structures candidates. Les motifs se placent-ils de manière cohérentes avec les structures ?
Question 8. Plus globalement, l'alignement proposé par Clustalw respecte-t-il les correspondances entre les structures secondaires ?
Question 9. Modifiez l'alignement à la main, de manière à aligner les tiges entre-elles. Pour faire appraitre la structure consensus, il est possible d'ajouter une ligne d'information qui contient cette structure. Par convention, dans un appariement la base en 5' est indiquée par un crochet ouvrant "<" et la base en 3' par un crochet fermant ">".
Question 10. Les covariations sont le fruit de mutations compensatoires au sein d'un appariement. La présence de covariations entre plusieurs structures prédites conforte la prédiction. En regardant votre alignement ou les différentes prédictions, voyez-vous des covariations? Normalement, pour être fiable, la recherche de covariations demande de disposer de davantage de séquences. Mais dans le cadre de ce TP, quatre séquences suffiront.
En conclusion
Il semblerait que les boites thi
partagent bien une structure secondaire commmune. Cela rejoint les
résultats de l'article A
conserved RNA structure (thi box) is involved in regulation of thiamin
biosynthetic gene expression in bacteria. L'hypothèse est que cette structure se forme uniquement en présence de thiamine,
empêchant ainsi la liaison du messager au ribosome.