Maîtrise informatique - option bio-informatique

De la séquence à la structure



Comme pour les séances précédentes, le but du TP est de d'obtenir le plus d'information possible à partir d'un fragment de génome anonyme. La nouveauté est que vous allez également étudier la structure de la protéine associée a la séquence. La séquence à analyser se trouve dans le fichier fragment.seq. Elle est extraite du génome de la bactérie Bacillus Subtilis. C'est donc un organisme procaryote unicellulaire.

Les bacilles doivent leur nom à leur aspect en forme de petit baton (bacillus en latin). Parmi les bacilles, on trouve les salmonelles, l'anthrax (le bacille du charbon), le bacille de la lèpre, de la tuberculose. Bacillus Subtilis, ou bacille subtil est plutôt inoffensif. Son inoccuité et sa parenté avec d'autres bacilles plus virulents en font un organisme largement étudié. Son génome est l'un des tous premiers à avoir été séquencé (dès 1996). Il contient environ 4000 gènes.

Recherche de protéines potentielles

La premiere étape est d'étudier les six cadres de lecture de cette séquence, pour détecter les ORF (cadres ouverts de lecture).

Q 1. Utilisez le logiciel ORFfinder pour cela. On ne va s'intéresser qu'aux ORF de taille supérieure a 300. Combien il y en a-t-il ? Repérez-les sur la séquence.

Pour savoir si une au moins de ces ORF est bien un gène, il est recommandé de procéder à une recherche d'homologie avec des protéines connues.

Q 2. Sauvegardez dans un fichier chacune des protéines correspondant aux ORF données par ORFfinder et supprimez les lignes corespondant à l'ADN (vous pouvez écrire un petit programme dasn votre langage préféré pour cela).

Q 3. Faites une recherche d'homologie dans une banque protéique avec BLAST.

Q 4. Laquelle des ORF vous semble la plus convaincante? Conservez le rapport de BLAST correspondant.

Q 5. Pour infirmer/confirmer les résultats obtenus avec BLAST, on peut également utiliser le programme de prédiction ab initio GeneMark.hmm. GeneMark.hmm est un programme qui utilise les modèles de Markov cachés et le biais de composition en codons des régiosn codantes. Lancez GeneMark sur l'extrait de génome (rubrique Bacillus Subtilis, puis en excluant les gènes atypiques). Qu'observez-vous pour la position du codon START?

Q 6. Sur la séquence, en amont du (des) gène(s), essayez de repérer le site de fixation du ribosome (RBS), qui se trouve environ 10 bases avant le codon START, et dont le motif consensus est AGGAA.

Q 7. Finalement, combien de gènes avez-vous trouvé? Peut-on dire quelles sont les positions de début et de fin?

Avant de continuer, vérifiez avec moi que vous avez les bons résultats.

Fonction du gène

Nous allons maintenant essayer de déterminer la fonction de la protéine associée au gène que vous avez trouvé.

Q 8. Reprenez le rapport de BLAST concernant votre gène. En lisant de près les fiches concernant les séquences similaires proposées, vous devez remarquer que beaucoup ne sont pas de véritables protéines. Ce sont en fait des séquences qui ont été obtenues par analyse bioinformatique de fragments d'ADN, comme ce que vous êtes en train de faire. Ces ont les séquences indiquées putative proteins, similar to , etc.) Sauvegardez quelques séquences, en préférant celles dont l'origine semble fiable.

Q 9.Quelle sont les fonctions des protéines similaires trouvées avec BLAST?

Q 10. Avec water, faites un alignement local deux à deux avec votre protéine et une protéine trouvée par BLAST. Comment utiliser ces alignements pour déterminer les bornes de début et de fin du gène ?

Q 11. Il n'est pas facile de "voir" si la qualité de la similarité trouvée avec un alignement est significative, surtout avec des séquences d'acides aminés. Pour tester la pertinence d'un score, il existe une méthode empirique. Soient A et B les deux séquences dont on veut tester la similarité.

  1. à partir de la séquence A, on génére un nombre élévé (1000 par exemple) de séquences aléatoires ayant la même composition, en mélangeant les acides aminés,
  2. pour chacune des séquences ainsi créées, on fait un alignement avec la séquence B, et on note le score,
  3. on obtient ainsi une distribution des scores, et il ne reste plus qu'à observer comment se situe le score initial entre A et B dans cette distribution pour savoir si c'est un score significatif.
Le programme PRSS fait cela. Utilisez-le sur les deux séquences que vous venez d'aligner.

En plus de la comparaison par alignement, on peut étudier la fonction en cherchant des domaines conservés. Cela permet par exemple de voir si la similarité détectée par l'alignement porte sur des parties fonctionnelles.

Q 12. Testez votre protéine candidate avec Prosite, qui permet la détection de domaines conservés modelisés par des expressions régulières. Parmi les sites prédits par Prosite, lesquels vous semble significatifs ?

Q 13. Faites maintenant un alignement multiple avec Clustal (si le site ne marche pas, essayez ici), et regardez si le(s) domaines(s) prédit(s) par Prosite sont conservés sur l'alignement multiple. Si oui, c'est un résultat qui plaide en faveur de la validité de la fonction prédite avec Prosite. Conservez les résultats de l'alignement.

Q 14. Il est également possible de modéliser un motif par un modèle de Markov caché (vous avez commencé à voir cela en cours). C'est ce que propose PFAM (pour Protein FAMilies). Faites de nouveau une recherche avec la protéine candidate, et comparez les résultats avec ceux de Prosite.

De nouveau, avant d'aborder la dernière partie, vérifiez avec moi que la fonction que vous avez trouvée est correcte.

Prédiction de la structure de la protéine

Une protéine est une molécule qui adopte une configuration spatiale, qui conditionne sa fonction. Cette configuration découle de liaisons hydrogènes qui se forment entre les acides aminés de la molécule. En particulier, les acides aminés forment des hélices alpha et des feuillets beta.

Le problème de la prédiction de la structure consiste à déterminer où sont localisés les hélices alpha, les feuillets beta sur la séquence. Le site Network Protein Sequence @nalysis propose de nombreux logiciels d'analyse des séquences protéiques. Entre autre, il est possible de faire tourner en même temps différents logiciels de prédiction de structure et le consensus des résultats obtenus est donné, à partir de cette page. Les conventions de représentation des structures sont :

h : helix = hélice alpha, e : extended strand = feuillet béta, c : coil = région non structurée.

Q 15. Prédisez la structure secondaire de votre protéine candidate.

Q 16. Pour améliorer la prédiction, il est possible, et souhaitable, d'utiliser les séquences des protéines similaires trouvées avec BLAST. En effet, si ces protéines ont la même fonction, elles doivent partager la même structure. Prédisez la structure de ces séquences, et comparez avec les prédictions avec celle de la protéine d'interêt avec l'alignement multiple. Les élément de structures communs ont plus de chance d'être corrects.

Q 17. La banque PDB recense les protéines dont les structures ont été résolues de manière exacte (par cristallographie). En faisant une recherche par mots clés, allez voir si PDB ne contiendrait pas des protéines de même fonction que votre protéine. Faites ensuite un alignement pour voir s'il est possible de projeter la structure sur votre séquence. Comparez avec le résultat obtenu dans les deux questions précédentes.


   Hélène Touzet (touzet_at_lifl_dot_fr), bureau 229, bâtiment M3 extension - USTL