Le but de ce TP est d'analyser une fraction du génome de la bactérie Fibrobacter succinogenes, dont la fin du séquencage a été annoncée le 15 octobre 2009.
Les bactéries sont des organismes unicellulaires procaryotes (sans noyau, en grec). On les trouve dans tous les biotopes. Certaines bactéries sont pathogènes et sont à l'origine de maladies infectieuses (la coqueluche, le choléra, la syphilis, la peste, l'anthrax, la tuberculose,... pour citer des maladies qui affectent les humains). D'autres bactéries sont bénéfiques à l'organisme hote, en permettant d'assurer des fonctions nécessaires à sa bonne santé. On parle alors de bactéries symbiotiques. C'est le cas de Fibrobacter succinogenes qui vit dans l'intestin des ruminants, tels que la vache, et qui permet la dégradation de la cellulose présente dans les végétaux absorbés par l'animal. Sans Fibrobacter succinogenes, les ruminants n’arriveraient simplement pas à digérer l’herbe qu’ils avalent.
Le génome de Fibrobacter succinogenes fait 3842635 paires de bases. Il est disponible dans le fichier NC_013410.fasta. Pour ce TP, nous allons travailler plus spécialement avec une portion d'environ 11 000 bases, ce qui représente environ 0.003% de la totalité. La séquence à analyser se trouve dans le fichier fibrobacter.fasta.
Quand un génome est nouvellement séquencé, on peut commencer par
comparer sa séquence aux séquences d'autres espèces proches connues et
étudiées, afin d'identifier les régions conservées, et d'en déduire la
fonction de ces régions par analogie (homologie). Dans le cas de
Fibrobacter succinogenes, il n'existe pas d'autres génomes
séquencés disponibles dans la meme famille. Les fibrobactères sont
toutefois relativement proches de la famille des chlorobium, à
laquelle appartient Chlorobium tepidum dont le génome est
disponible. Pour comparer les deux génomes, vous allez utiliser le
logiciel d'alignement local
Lancez
Pour observer et comprendre quel est le résultat attendu de la
comparaison quand les génomes ont faiblement divergé, vous pouvez
aligner les génomes de Escherichia coli (Escherichia coli K12)
et de Schigella flexneri (Shigella flexneri 5 8401).
Il apparait que
Fibrobacter succinogenes est une espèce trop éloignée des
espèces déjà séquencées pour pouvoir mettre en évidence de grandes
régions conservées. Il va donc falloir travailler de facon plus
méticuleuse, en cherchant les gènes un par un.
La première chose à faire pour identifier des régions codantes dans un génome bactérien est de regarder
si la séquence présente des ORF de bonne longueur. Pour mémoire, une ORF (open reading frame, cadre ouvert
de lecture en francais) est une séquence d'ADN
Recherche de gènes codant pour des protéines
Cadres ouverts de lecture
Sur des séquences aléatoires, la longueur moyenne d'une ORF est d'environ 60 bases, soit une vingtaine de codons. Les ORF significativement plus longs ont donc de bonnes chances de correspondre à des séquences traduites en protéine.
Le logiciel ORFfinder permet de localiser toutes les ORF sur les 6 phases possibles: 3 phases sur le brin +, 3 phases sur le brin -.
Pour chaque ORF, ORFfinder permet de visualiser la séquence traduite correspondante, suivant le code génétique. Sauvegardez au format Fasta toutes les séquences protéiques pour les ORF de longueur supérieure à 1000. Pour cela, cliquez sur chaque ORF voulue et acceptez-la (bouton ACCEPT). Ceci fait pour toutes les ORF souhaitées, choisissez 3 fasta protein dans le menu deroulant VIEW. Gardez précieusement les séquences avec leur entete dans un fichier.
Vous allez maintenant analyser plus en détail chacune des séquences protéiques putatives trouvées, afin de déterminer quelles sont celles qui sont les candidats les plus fiables, et quelle est la fonction de la protéine associée.
La recherche par homologie est souvent plus fructueuse en utilisant des séquences protéiques que les séquences nucléiques associées (les ARN messagers). Cela est du au fait que la pression de sélection s'exerce sur la protéine, et à la redondance du code génétique.
BLAST permet de comparer une séquence requête à toutes les séquences d'une banque de données en utilisant une heuristique à base de graines contigues pour l'alignement local, comme cela a été vu en cours.
Après quelques secondes d'attente, les résultats sont affichés séquence par séquence, avec le petit menu déroulant.
Les séquences trouvées sont classées par similitude décroissante. Le paramètre de la E-valeur est un indicateur statistique sur la significativité des séquences trouvées. Plus ce paramètre est proche de 0, meilleur est l'alignement. Dans la seconde partie du rapport, les alignements locaux correspondants sont affichés.
Quelles conclusions peut-on tirer des résultats de BLAST ? Notez-les pour pouvoir les confronter aux résultats de la recherche de motifs protéiques.
En plus de la comparaison par alignement, on peut étudier la fonction de séquences protéiques en cherchant des domaines conservés.
Testez vos protéines candidates avec Prosite, qui permet la détection de domaines conservés modelisés par des expressions régulières. Essayez Prosite en activant l'option exclude patterns with a high probability of occurrence, puis en la désactivant. Parmi les sites prédits par Prosite, lesquels vous semble significatifs au niveau statistique ? En regardant les motifs non-significatifs, comment expliquez-vous que ces motifs aient une probabilité d'occurrence élevée ?
Vous devez savoir qu'il est également possible de modéliser un motif par un modèle de Markov caché. C'est ce que propose PFAM (pour Protein FAMilies). Faites de nouveau une recherche avec la protéine candidate, en suivant le lien search, et comparez les résultats avec ceux de Prosite et de BLAST.
Quelle est la conclusion générale de cette partie ?
Après les gènes codants, la suite logique est de s'intéresser aux gènes non codants. A la différence des gènes codants, les ARN non-codants ne présentent pas de signaux universels forts au niveau de la séquence, tels que le codon d'initiation ou le codon de terminaison. La recherche de gènes à ARN se fait donc plutot par homologie, en utilisant la base de données RFAM.
RFAM utilise des grammaires stochastiques hors contexte pour modéliser les familles d'ARN. Allez dans la rubrique Search et collez la séquence d'ADN de fibrobacter.fasta. Comme RFAM n'accepte pas de séquence de longueur supérieure à 10 000 bases, vous devez procéder en deux temps: lancer une première recherche sur la première moitié de la séquence, puis une seconde recherche sur le reste de la séquence. Quel est le résultat ? L'ARN trouvé est-il caractéristique de ce type de bactérie ? (si vous ne vous souvenez plus, allez faire un tour sur wikipedia)
En visualisant l'alignement de RFAM, copiez la séquence de l'ARN de transfert prédit, et conservez la.
Pour compléter la prédiction de RFAM, on peut calculer les structures secondaires avec le logiciel Mfold. Mfold implémente l'algorithme de Nussinov vu en cours, avec le modèle thermodynamique des plus proches voisins. Parmi les prédictions, retrouve-t-on la structure caractéristique d'un ARN de transfert en feuille de trèfle ?
Une solution alternative pour essayer d'identifier la structure d'utiliser l'analyse comparative en complément de l'analyse thermodynique. C'est ce que fait le logiciel carnac (développé comme YASS dans l'équipe SEQUOIA). Utilisez le fichier trna.fasta qui contient des séquences d'ARN de transfert de quatre autres organismes: l'homme Homo sapiens, le poisson Danio rerio, la mouche Drosophila melanogaster, la plante Arabidopsis thaliana. Ajoutez la séquence d'ARNt putative de Fibrobacter succinogenes, et lancez Carnac sur les cinq séquences. Quelle est la conclusion ?
Dans cet exemple, les séquences sont volontairement issues d'organismes très différents. Cela montre que la structure d'un ARNt est conservée au fil de l'évolution. Par contre la séquence elle-meme a davantage varié. C'est le fruit de la pression de sélection.
L'annotation publique du génome de Fibrobacter succinogenes est disponible sur le site du NCBI. La fiche recense tous les éléments fonctionnels prédits par bio-informatique ou vérifiés expérimentalement. Par exemple, les gènes codants sont indiqués par le mot-clé CDS (coding sequence).
Retrouvez la portion du génome correspondant à la séquence du TP: positions 54999 - 66630, et regardez si l'annotation publique officielle est cohérente avec votre analyse. Vous pouvez également utiliser le visualisateur (lien graphics report) pour parcourir le génome en 2D.