Vous allez rechercher les gènes présents sur les milles premiers nucléotides d'un contig du génome de Methanococcus maripaludis. Voici la séquence :
>M.maripaludis CAGGGTTTAGGATATATTTCTAAAAAGAAAGCAAAACAGAAATTAAAAGAAGTAATTCAA GAAGTTATTTAATTTTTAAGTTTTTTTATTTTTTATTTGTTAAGTAATTAAATTAATTCA ACGAAGTTTTCAATCATTTTTAAACCGTTTTTACCACTTTTTTCAGGATGGAACTGGGTA GCATAAACGTTTTTTTTATTCAAAATGCACGGGAATTCGTAACCGTAATTAGTAGTTCCT GAAATTACGTCTTTTTCTGAAGGATTCACGTGGTATGAATGTACAAAGTAGAAATATTCA TTATTTGCTATTCCTTCAAAAAGGGGAATATCCTGAACCTGATTTACAGTATTCCAACCC ATATGGGGGATTTTTTCAGAATGTTTGAATTTTATAACGTCCCCTTTTATCACGCCAAGA CCTGGAGTTTCTGGACATTCTTCACTTTTTTCAAGTAACAACTGCATACCTAAACAAATT CCTAAAAATGGAACCTTTTGAACGCATTTATTAATTATTTCATTTAAAGAGCAGTCTCCT GTTTTTTGGGAAATATTTTTCATTGAATCTCCAAAATTTCCAACACCCGGGAGGACTAGC TTGTCAGCACTTAAAATAGTTTCAGGGTCACTTGTAACAACGATGTTTTTTGTGTATAAT TCAAGTGCCTTTTCGATACTCCTCAAGTTGCCTGCATTATAATCAATTATTGCAATCACG ATTATCCCGTTTAATATAATTCTTCTTCAAGTTCTTTTAATGTTTTAGATATTTTATCAA ATGCTATGTATGCATCTTCGATTACTTTTAATCCGGTAATTACAACTTTTCCACTACCAA ATATTAATACAACAACTTTAGGTTCACTCAATCTGTAAACTAATCCAGGGAACTGTTCTG GTTCGTATTCTGTACATTCTAATGTGGATATGTCATCTAAGTTAGGTTCCATTCCAAGTT CGGTTGTAGCAACCATATTTTGTACTTTTACTTCAGGATT
Pour commencer, nous allons étudier les phases ouvertes de lecture à l'aide du logiciel Orf Finder. Choisissez le code génétique n°11 'Bacterial code'.
Quelles sont les phases ouvertes de lecture prédites (position, taille, phase) ?
Lorsque vous cliquez sur une ORF, vous avez la possibilité de lancer un BlastP. Faites-le pour chaque ORF et répondez aux questions suivantes :
Est-ce que la protéine codée par l'ORF ressemble à des protéines connues (présentes dans les banques) ?
Si oui, est-ce que les alignements donnés par Blast contiennent les protéines
de la banque en entier ?
Est-ce que vous pouvez en déduire précisemment les positions de début et de fin
des CDS présentes sur la séquence étudiée ?
Mémorisez au format FASTA la séquence de la protéine de la banque qui ressemble
le plus à l'ORF.
BlastP a pour but de sélectionner les protéines de la banque qui ressemblent le plus
à une séquence requête. Dans notre cas, il s'agit de la traduction d'une ORF. Mais,
l'ORF peut être incomplète suite à des erreurs de séquencage ou à cause des codons
d'initiation alternatifs. De plus, BlastP n'est pas dédié à l'identification de
la structure d'un gène.
Le programme WISE
est dédié à l'alignement d'une séquence protéique avec une séquence génomique.
Il essaie de retrouver les zones de la séquence d'ADN qui codent pour la
protéine. Comparez la séquence d'ADN entière aux protéines que vous avez mémorisées
précédemment.
Attention : il faut demander à faire la comparaison sur les deux brins de la
séquence d'ADN.
Il vaut mieux cocher l'option "show EMBL feature format with CDS key"
dans la partie "Genewise special option" pour que les positions de début et de fin des CDS
prédites soient précisées.
Est-ce que wise trouve des bornes différentes de celles déduites des résultats
obtenus avec BlastP ?
D'où viennent ces différences ?
Est-ce que les gènes trouvés sont entiers sur la séquence ?
Si non, pourquoi ?
Nous allons utiliser la version heuristique de GeneMark (cf section "Gene Prediction in Bacteria, Archaea and Metagenomes" de la page d'accueil du logiciel). Dans le formulaire, cochez la case : "Print GeneMark 2.4 predictions in addition to GeneMark.hmm predictions" pour avoir les résultats produits par les 2 versions du programme. Vous selectionerez également comme espèce modèle Methanococcus jannaschii.
Nous allons commencer par analyser les résultats de la version "Hidden Markov Model" : ils sont notés par "Parse predicted by GeneMark.hmm 2.4".
Combien de gènes sont prédits par GeneMark ?
Consultez le graphique des calculs réalisés par GeneMark ("View PDF Graphical Output"),
est-ce que tous les gènes indiqués par le logiciel ont une courbe supérieure
à 0,5 ?
Que pouvez-vous en déduire sur la vraissemblance des gènes prédits ?
Analysons maintenant les résultats produits par GeneMark 2.4, à la suite des précédant.
Combien de gènes sont prédits cette fois-ci ?
Quel est la position la plus probable du codon d'initiation pour chaque gène ?
Est-il toujours possible de trancher entre les différentes propositions ? Si non,
pourquoi ?
Est-ce que les positions de ces gènes sont en accord avec celles trouvées
précédemment (autre version du prog et OrfFinder) ?
Nous allons maintenant faire le point sur les résultats obtenus à l'aide des deux techniques possibles : la comparaison aux protéines existantes (OrfFinder + BlastP + Wise) ou la prédiction ab initio (GeneMark).
D'après vous, combien de CDS sont présentes sur la séquence et quelles sont
leurs positions ?
Quelle méthode vous semble la plus fiable pour cette étude ?
Calculez les séquences protéiques codées par les CDS à l'aide d'un
logiciel de traduction.