Etude d'une séquence de Fibrobacter succinogenes

Le but de ce TP est d'analyser une fraction du génome de la bactérie Fibrobacter succinogenes, dont la fin du séquencage a été annoncée le 15 octobre 2009.

Les bactéries sont des organismes unicellulaires procaryotes (sans noyau, en grec). On les trouve dans tous les biotopes. Certaines bactéries sont pathogènes et sont à l'origine de maladies infectieuses (la coqueluche, le choléra, la syphilis, la peste, l'anthrax, la tuberculose,... pour citer des maladies qui affectent les humains). D'autres bactéries sont bénéfiques à l'organisme hote, en permettant d'assurer des fonctions nécessaires à sa bonne santé. On parle alors de bactéries symbiotiques. C'est le cas de Fibrobacter succinogenes qui vit dans l'intestin des ruminants, tels que la vache, et qui permet la dégradation de la cellulose présente dans les végétaux absorbés par l'animal. Sans Fibrobacter succinogenes, les ruminants n’arriveraient simplement pas à digérer l’herbe qu’ils avalent.

Le génome de Fibrobacter succinogenes fait 3842635 paires de bases. Il est disponible dans le fichier NC_013410.fasta. Pour ce TP, nous allons travailler plus spécialement avec une portion d'environ 11 000 bases, ce qui représente environ 0.003% de la totalité. La séquence à analyser se trouve dans le fichier fibrobacter.fasta.


Comparaison à grande échelle avec le génome de Chlorobium tepidum

Quand un génome est nouvellement séquencé, on peut commencer par comparer sa séquence aux séquences d'autres espèces proches connues et étudiées, afin d'identifier les régions conservées, et d'en déduire la fonction de ces régions par analogie (homologie). Dans le cas de Fibrobacter succinogenes, il n'existe pas d'autres génomes séquencés disponibles dans la meme famille. Les fibrobactères sont toutefois relativement proches de la famille des chlorobium, à laquelle appartient Chlorobium tepidum dont le génome est disponible. Pour comparer les deux génomes, vous allez utiliser le logiciel d'alignement local YASS, développé dans l'équipe SEQUOIA à Lille. YASS exploite le principe des graines espacées, vu en cours.

Lancez YASS sur les deux séquences. Le génome complet de Fibrobacter succinogenes se trouve dans le fichier NC_013410.fasta. Celui de Chlorobium tepidum, plus ancien, est fourni sur le site de YASS, dans la section proposed sequences. Visualisez le résultat sous forme de dotplot. Les diagonales symbolisent les régions conservées entre les deux génomes. On peut accéder à l'alignement sous-jacent en cliquant dessus.

Pour observer et comprendre quel est le résultat attendu de la comparaison quand les génomes ont faiblement divergé, vous pouvez aligner les génomes de Escherichia coli (Escherichia coli K12) et de Schigella flexneri (Shigella flexneri 5 8401).

Il apparait que Fibrobacter succinogenes est une espèce trop éloignée des espèces déjà séquencées pour pouvoir mettre en évidence de grandes régions conservées. Il va donc falloir travailler de facon plus méticuleuse, en cherchant les gènes un par un.


Recherche de gènes codant pour des protéines

Cadres ouverts de lecture

La première chose à faire pour identifier des régions codantes dans un génome bactérien est de regarder si la séquence présente des ORF de bonne longueur. Pour mémoire, une ORF (open reading frame, cadre ouvert de lecture en francais) est une séquence d'ADN

Sur des séquences aléatoires, la longueur moyenne d'une ORF est d'environ 60 bases, soit une vingtaine de codons. Les ORF significativement plus longs ont donc de bonnes chances de correspondre à des séquences traduites en protéine.

Le logiciel ORFfinder permet de localiser toutes les ORF sur les 6 phases possibles: 3 phases sur le brin +, 3 phases sur le brin -.

Pour chaque ORF, ORFfinder permet de visualiser la séquence traduite correspondante, suivant le code génétique. Sauvegardez au format Fasta toutes les séquences protéiques pour les ORF de longueur supérieure à 1000. Pour cela, cliquez sur chaque ORF voulue et acceptez-la (bouton ACCEPT). Ceci fait pour toutes les ORF souhaitées, choisissez 3 fasta protein dans le menu deroulant VIEW. Gardez précieusement les séquences avec leur entete dans un fichier.

Recherche d'homologie avec BLAST

Vous allez maintenant analyser plus en détail chacune des séquences protéiques putatives trouvées, afin de déterminer quelles sont celles qui sont les candidats les plus fiables, et quelle est la fonction de la protéine associée.

La recherche par homologie est souvent plus fructueuse en utilisant des séquences protéiques que les séquences nucléiques associées (les ARN messagers). Cela est du au fait que la pression de sélection s'exerce sur la protéine, et à la redondance du code génétique.

BLAST permet de comparer une séquence requête à toutes les séquences d'une banque de données en utilisant une heuristique à base de graines contigues pour l'alignement local, comme cela a été vu en cours.

  1. Ouvrez le formulaire dédié à la comparaison de séquences protéiques, protein blast dans la section Basic BLAST,
  2. collez les séquences étudiées dans la zone de saisie Enter query sequence,
  3. cliquez sur le bouton BLAST pour lancer la requête.

Après quelques secondes d'attente, les résultats sont affichés séquence par séquence, avec le petit menu déroulant.

Les séquences trouvées sont classées par similitude décroissante. Le paramètre de la E-valeur est un indicateur statistique sur la significativité des séquences trouvées. Plus ce paramètre est proche de 0, meilleur est l'alignement. Dans la seconde partie du rapport, les alignements locaux correspondants sont affichés.

Quelles conclusions peut-on tirer des résultats de BLAST ? Notez-les pour pouvoir les confronter aux résultats de la recherche de motifs protéiques.

Recherche de motifs protéiques

En plus de la comparaison par alignement, on peut étudier la fonction de séquences protéiques en cherchant des domaines conservés.

Testez vos protéines candidates avec Prosite, qui permet la détection de domaines conservés modelisés par des expressions régulières. Essayez Prosite en activant l'option exclude patterns with a high probability of occurrence, puis en la désactivant. Parmi les sites prédits par Prosite, lesquels vous semble significatifs au niveau statistique ? En regardant les motifs non-significatifs, comment expliquez-vous que ces motifs aient une probabilité d'occurrence élevée ?

Vous devez savoir qu'il est également possible de modéliser un motif par un modèle de Markov caché. C'est ce que propose PFAM (pour Protein FAMilies). Faites de nouveau une recherche avec la protéine candidate, en suivant le lien search, et comparez les résultats avec ceux de Prosite et de BLAST.


Quelle est la conclusion générale de cette partie ?


Recherche d'ARN non codants

Après les gènes codants, la suite logique est de s'intéresser aux gènes non codants. A la différence des gènes codants, les ARN non-codants ne présentent pas de signaux universels forts au niveau de la séquence, tels que le codon d'initiation ou le codon de terminaison. La recherche de gènes à ARN se fait donc plutot par homologie, en utilisant la base de données RFAM.

Recherches de motifs ARN

RFAM utilise des grammaires stochastiques hors contexte pour modéliser les familles d'ARN. Allez dans la rubrique Search et collez la séquence d'ADN de fibrobacter.fasta. Comme RFAM n'accepte pas de séquence de longueur supérieure à 10 000 bases, vous devez procéder en deux temps: lancer une première recherche sur la première moitié de la séquence, puis une seconde recherche sur le reste de la séquence. Quel est le résultat ? L'ARN trouvé est-il caractéristique de ce type de bactérie ? (si vous ne vous souvenez plus, allez faire un tour sur wikipedia)

En visualisant l'alignement de RFAM, copiez la séquence de l'ARN de transfert prédit, et conservez la.

Prédiction de structure avec Mfold

Pour compléter la prédiction de RFAM, on peut calculer les structures secondaires avec le logiciel Mfold. Mfold implémente l'algorithme de Nussinov vu en cours, avec le modèle thermodynamique des plus proches voisins. Parmi les prédictions, retrouve-t-on la structure caractéristique d'un ARN de transfert en feuille de trèfle ?

Prédiction de structure avec carnac

Une solution alternative pour essayer d'identifier la structure d'utiliser l'analyse comparative en complément de l'analyse thermodynique. C'est ce que fait le logiciel carnac (développé comme YASS dans l'équipe SEQUOIA). Utilisez le fichier trna.fasta qui contient des séquences d'ARN de transfert de quatre autres organismes: l'homme Homo sapiens, le poisson Danio rerio, la mouche Drosophila melanogaster, la plante Arabidopsis thaliana. Ajoutez la séquence d'ARNt putative de Fibrobacter succinogenes, et lancez Carnac sur les cinq séquences. Quelle est la conclusion ?

Dans cet exemple, les séquences sont volontairement issues d'organismes très différents. Cela montre que la structure d'un ARNt est conservée au fil de l'évolution. Par contre la séquence elle-meme a davantage varié. C'est le fruit de la pression de sélection.


Pour conclure

L'annotation publique du génome de Fibrobacter succinogenes est disponible sur le site du NCBI. La fiche recense tous les éléments fonctionnels prédits par bio-informatique ou vérifiés expérimentalement. Par exemple, les gènes codants sont indiqués par le mot-clé CDS (coding sequence).

Retrouvez la portion du génome correspondant à la séquence du TP: positions 54999 - 66630, et regardez si l'annotation publique officielle est cohérente avec votre analyse. Vous pouvez également utiliser le visualisateur (lien graphics report) pour parcourir le génome en 2D.