La séquence à analyser se trouve dans le fichier fragment.seq. Elle est
extraite du génome de la bactérie Bacillus Subtilis. C'est donc un organisme procaryote unicellulaire.
Les bacilles doivent leur nom à leur aspect en forme de petit baton
(bacillus en latin).
Bacillus Subtilis est une bactérie que l'on trouve habituellement dans le sol. Il n'est pas pathogène pour l'Homme, et donc facilement manipulable en laboratoire. Il présente une parenté élevée avec d'autres bactéries plus virulentes, telles que les staphylocoques dorés, le bacille de l'anthrax, les pneumocoques, les listerias, ... Cela en fait un organisme modèle largement étudié. Son génome est l'un des tous premiers à avoir été séquencé (dès 1996). Il contient environ 4000 gènes.
Q 1. La première étape est de chercher dans les banques de données de séquences s'il existe des séquences connues similaires. Cela se fait avec BLAST, qui compare une séquence requête à toutes les séquences d'une banque de données. L'interface la plus conviviale se trouve sur le site du NCBI : http://www.ncbi.nlm.nih.gov/BLAST/.
Q 2. Utilisez le logiciel ORFfinder pour cela. On ne va s'intéresser qu'aux ORF de taille supérieure a 300. Combien il y en a-t-il ? Repérez-les sur la séquence.
Pour savoir si une au moins de ces ORF est bien un gène, il est recommandé de procéder à une recherche d'homologie avec des protéines connues.
Q 3. Sauvegardez dans un fichier chacune des protéines correspondant aux ORF données par ORFfinder. Il est possible de visualiser la séquence protéique en cliquant sur l'ORF, puis en l'acceptant (bouton ACCEPT) et en choisissant 3 fasta protein dans le menu deroulant VIEW.
Q 4. Faites une recherche d'homologie dans une banque protéique, toujours avec BLAST. Cette fois, ouvrez le formulaire dédié à la comparaison de séquences protéiques.
Q 5. Laquelle des ORF vous semble-t-elle la plus convaincante? Conservez le rapport de BLAST correspondant.
Q 6. Pour infirmer/confirmer les résultats obtenus avec BLAST, on peut également utiliser le programme de prédiction GeneMark.hmm, présenté en cours. GeneMark.hmm repose sur des modèles de Markov cachés qui exploitent le biais de composition en codons des régions codantes. Lancez GeneMark sur l'extrait de génome. Précisez bien le bon organisme (SPECIES. Retrouve-t-on le(s) meme(s) gene(s) ? Qu'observez-vous pour la position du codon START?
Q 7. Pour savoir quel est le bon codon START, on peut chercher des signaux complémentaires, comme le RBS (site de fixation du ribosome). Le RBS se trouve environ 10 bases avant le codon START et le motif consensus est AGGAA. Cette recherche est-elle fructueuse ?
Q 8. Finalement, combien de gènes avez-vous trouvé? Peut-on dire
quelles sont les positions de début et de fin?
Avant de continuer, vérifiez avec moi que vous avez les bons résultats.
Q 9. Quelle sont les fonctions des protéines similaires trouvées avec BLAST?
Q 10. En lisant de près les fiches concernant les séquences similaires proposées, vous devez remarquer que beaucoup ne sont pas de véritables protéines. Ce sont en fait des séquences qui ont été obtenues par analyse bio-informatique de fragments d'ADN, comme ce que vous êtes en train de faire. Ce sont les séquences indiquées putative proteins, similar to , hypothetical etc. dans le nom ou le commentaire. Sauvegardez 5 ou 6 séquences, en écartant celles qui ne sont pas de véritables protéines. La sélection se fait en cochant les séquences voulues, puis en les affichant avec le bouton get selected sequences en tete des alignements. Les séquences sont affichées au format FASTA en sélectionnant fasta dans le menu Display.
En plus de la comparaison par alignement, on peut étudier la fonction en cherchant des domaines conservés. Cela permet par exemple de voir si la similitude détectée par l'alignement porte sur des parties fonctionnelles.
Q 11. Testez votre protéine candidate avec Prosite, qui permet la détection de domaines conservés modelisés par des expressions régulières. Parmi les sites prédits par Prosite, lesquels vous semble significatifs au niveau statistique ?
Q 12. Faites maintenant un alignement multiple avec ClustalW (si le site ne marche pas, essayez ici), et regardez si le(s) domaines(s) prédit(s) par Prosite sont conservés sur l'alignement multiple. Si oui, c'est un résultat qui plaide en faveur de la validité de la fonction prédite avec Prosite. Conservez les résultats de l'alignement.
Q 13. Il est également possible de modéliser un motif par un modèle de Markov caché. C'est ce que propose PFAM (pour Protein FAMilies). Faites de nouveau une recherche avec la protéine candidate, et comparez les résultats avec ceux de Prosite.
Le problème de la prédiction de la structure consiste à déterminer où sont localisés les hélices alpha, les feuillets beta sur la séquence. Le site Network Protein Sequence @nalysis propose de nombreux logiciels d'analyse des séquences protéiques. Entre autre, il est possible de faire tourner en même temps différents logiciels de prédiction de structure et le consensus des résultats obtenus est donné, à partir de cette page. Les conventions de représentation des structures sont :
Q 14. Prédisez la structure secondaire de votre protéine candidate.
Q 15. Pour améliorer la prédiction, il est possible, et souhaitable, d'utiliser les séquences des protéines similaires trouvées avec BLAST. En effet, si ces protéines ont la même fonction, elles doivent partager la même structure. Prédisez la structure de ces séquences, et comparez avec les prédictions avec celle de la protéine d'interêt. Vous pouvez vous aider de l'alignement multiple pour la comparaison. Les élément de structures communs ont plus de chance d'être corrects.
Q 16. La banque PDB recense les protéines dont les structures ont été résolues de
manière exacte (par cristallographie). En faisant une recherche par mots clés,
allez voir si PDB ne contiendrait pas des protéines de même fonction que
votre protéine. Faites ensuite un alignement
pour voir s'il est possible de projeter la structure sur votre séquence.
Comparez avec le résultat obtenu dans les deux questions précédentes.