Vous disposez de la séquence partielle d’un ADNc de plante :
>Sequence ADNc partiel TGAAAAAACCGGAATCCCATTCTTACCTACTCCAATGGGCAAAGGTCTGTTACCCGATTCCCATGACCTAGCTGCAACAG CTGCCCGGTCACTTGCAATTGGTAAATGCGATGTCGCCATTGTTATTGGTGCACGATTGAACTGGTTGCTACACTTTGGA GAACCTCCAAAGTGGTCAAAAGATGTCAAATTCATCTTAATTGACATAGATGAAGAAGAGATTAGTCTCCGAAAGCCCTA TTTAGGTCTAATTGGGGACGCAAAAAGTACTCTTAAAGTATTGAATAAAGAGATTAAAGATGACCCGTTCTGTTTGGGTC GATCTCACCCTTGGATTGAAGCCATAACCAATAAAGTTAAAGAAAACGTATCAAAAATGGAGGAACAGTTAGCAAAAGAC GTTGTCCCCTTCAATTTCTTGACTCCAATGAGAATCATTAGAGATGCAATTGCTGGTTTAGGTAGTCCTGCTCCTATATT AGTTTCAGAAGGGGCTAACACCATGGACGTGGGTCGATCCGTTTTGGTTCAAATGGAGCCCCGGACCCGGTTAGATGCAG GGACATGGGGGACAATGGGTGTTGGTTTAGGTTACTGTATTGCTGCAGCCGTGGCTTCACCTGACCGCCTTGTGGTTGCT GTTGAAGGTGACTCTGGTTTTGGGTTCAGTGCCATGGAAGTCGAGACTTTGGTTAGATACCAGTTACCTGTGGTGGTGAT AGTTTTCAACAATGGTGGTGTATATGGCGGTGACAGAAGATGCCCTAACGAGATCACCGGGCCCTACAAAGATGACCCTG CACCCACTTCATTTGTACCCGGGGCAGCTTACCATGTTTTGATTGAAGCTTTTGGTGGAAAAGGTTATCTTGTTGGGACT CCTGAAGAGCTTAAAAGTGCTCTTGCTGAATCGTTTAGTGCACGAAAGCCTGCGGTTATAAACGTGACAATTGATCCGTA TGCGGGTGCAGAAAGCGGTAGGATGCAACATAAAAATTGATGTATGTCGGTTTTGGTTCGGTCTTGATGTGGAATATGAA TAAGTTTTAAATTGACATGTTGTAAACTATTATGAATTTTGAAAGAGGGTAGATTGGGATATTGGAAGGAATATATATAT ATATATATATGTGTTAGAAACTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
Tout d’abord, nous souhaitons savoir si cette séquence contient des zones de faible complexité.
(Q0) Rappelez ce qu'est un ADNc.
(Q1) Quel type de logiciel pouvons nous utiliser?
(Q2) Quel logiciel choisissez-vous ?
(Q3) Combien de zones de faible complexité observez-vous dans cette séquence ?
(Q4) Comment sont-elles représentées dans la sortie du logiciel utilisé ?
(Q5) Quelle est la nature de ces motifs particuliers ?
Nous voulons confrontez notre séquence aux séquences protéiques de la plante Arabidopsis thaliana disponibles dans GenBank (NCBI).
(Q6) Quel type de Blast utilisez-vous ? Que réalise t-il?
(Q7) Quelle banque de données choisissez-vous ?
(Q8) Quel est le numéro d’accession et quelle est la fonction de la protéine dont la séquence présente le plus d'homologie avec notre séquence traduite (best hit)?
A l’aide de l’alignement de notre séquence traduite et de la séquence protéique d’Arabidopsis thaliana présentant le plus d’homologies (best hit):
(Q9) Dans quelles régions de l'ADNc se situent les zones de faibles complexité observées précédemment ?
(Q10) Quelle est(sont) la(les) partie(s) manquante(s) de la séquence de notre ADNc (début et/ou fin) ?
Voici un fragment de séquence issue d'un métagénome
>gi|239972159|gb|ACQI01004637.1| Hydrothermal vent metagenome LCHCB.C4637, whole genome shotgun sequence
TAGAACCAGAAAGACCATAGTTAGAAGCGTTGGCAATACCTAACGCATGGGCAGGTTCTGATGCTTTTAA
CACAATCGCAACCGGGCCAAATAGCTCTTCATTATAAGCAGGCATATTACTGGTGACATCGCTCAATATA
GTAGGAGCGTAATAATAACCAGGGCAATCTAGTTGGTAACCGCCAGTTATAATTGTTGCTCCTAAGGCAA
CTGAATCCATTACTTGTTGGTGTAACTTGTCTAACAAATCTTGCCGAGCCATGGGTGCTAAGGAGGCTTC
TTTCTCCATCGGGCTATTAATTTTACCCTCTGTCGGAAATTTTTCTTCTACTGCTTGTTTAAATTTTTGG
ACAAACTCATCAAAAAGAAAAGCATCAATAATAAAACGTTTAGAAGCAATACAAGTTTGCCCCATGTTCA
CAAATCGACCCGTTATTGCCCCTGCAACAGCTTCTTTAATATTGGCATTGTCTAGCACAATAAAAGCATC
TGACCCGCCCAGCTCTAACACCGCTTTTTTAAGTTCTGACCCAGCAATACTGGCAACGCTTCTGCCCGCT
TTTTCACTGCCAGTTAAACTCACTGCCTGTACGATTGGGTTACGAATAACCGCTTCAACCTGTGATGAGC
TAATCATTAAAGTGGTAAAAATATTATCAGGAAAGCCCGATTTACGAAAAACTTCTTCAATTGCCAAGGC
ACATTGTGGCACATTAGAAGCATGCTTCATAATGGCAATATTACCTGCGGTAACAGTAGGAATAGCAAAA
CGTAATGCTTGCCAAAAAGGATAGTTCCAAGGCATAACTCCTAACACCACACCCATTGGTTGGTAGCTAA
CAAAACTACTAGAGGCTTCAGTTTCAATGACTTCATCGGCTAAATGTATCTGCGCATTCTCGGCATAATA
ATCACAAAGAACCGCACATTTCTCTATTTCAGCCATTGACTCGGTAAATAATTTACCCATTTCTAAAGTA
ATCAATTCAGCCAATAGCTCTTGGTCATCTCGCAACACATCTGCCATACGTTTTAATAACAGACACCTAT
CTGCCAAAGGCGTTAGCTTTGACCAATCTTCAAACTCATAACTTGCTTGAAGGATTACCTCACTTAGCGT
TTCATCATCCCAAGTTTCAAATTCTGCAAATTGCTCGCCTGATTGTGGATTAACCGAGAACATGGTCATA
GTCATATTTTCCTAATTTAAAGAAGCACTTAATTGTTAAGCTGCAATAGCGTCTTGCACCCAAGCAGATG
AGGATAAATAAATATAGCTTAGACTTTACTCAAGCCAAGCAATGAAAGCAAGTTTTTTATAAAGTATAAT
GAAATCACCTATAAAAACAATTTTGCCAGGTAATGACTATTTCACTCAATCCGATTAAATCTTTGCTAAA
ACTTTTACTGATTGCCCCCATTAAATTTTACCAATGGTTTATTAGTCCTGTTTTAGGCCCTAGATGCCGA
TTCTACCCAACCTGTTCAAGCTATGCGATTGAAGCAATTGAAAAACATGGCGTGCTTTATGGCTTCTGGC
TAGGACTAAAACGGGTGTTTAGATGCCACCCAGGAAGTGAAGGTGGTGTTGATCTAGTTCCAGAGCCTGG
TTGTTGTTCAAAAAAAGACTCTGATTAGGGTAAAATAAAGTAAACATTTTAAGGAGTGAGTCATGCCCGT
AGAAGAAACCACCGTATCGCCTTATATTAATAAAGAACTTAGTTTATTAGAATTTAACAAACGCGTGTTA
GCAGAAGCAAAAGACCCCTCCGTTCCGCTATTAGAACGTTTAAAATATCTTTGTATTTCCAGTAGCAATA
TTGATGAATTTTTTGAAGTTCGCCTAGCAAGCCTATACGAACTTTCTGGCGACCCTGCTGCCAGAACCAA
GCCTGACGGACAACCGCCTAGCCAAGTAATAAAAAAACTATCGGTTGAAGCCCATAAGATTATTGAAGAT
CAATATTTCACTTTAAACCATATTTTGATTCCTGCTCTAGAAAAAGAAAATATTCGTTTTTTACGCCGCA
ATCAATGGAATGAAAAACAAAAAGAATGGATTAGAAAATTCTTTTTAGAATCCTTACAACCGGTTTT
(Q0) Rappelez rapidement ce qu'est un métagénome.
(Q1) Expliquez en particulier pourquoi nous n'avons (pour le moment) aucune idée de l'espèce, ni du type d'organisme séquencé.
On souhaite annoter cette séquence, en particulier savoir si un ou plusieurs gènes sont potentiellement présents (même de manière incomplète). On ne vous demande pas dans cet exercice de localiser "précisément" les bornes de début/fin de chaque gène mais simplement de pouvoir dire "approximativement" (à 10 acides aminés près ou 30 nucléotides) leur positions et leur sens. :
Nous allons dans un premier temps utiliser BLASTX contre la banque NR avec les paramètres par défaut.
(Q2) Que vous apprend cette première recherche en terme de gène(s) présent(s) ? Quelle est la protéine (a priori) encodée par le gène trouvé ?
(Q3) Quelle est le sens et les positions approximatives de début et de fin du gène sur notre fragment?
(Q4) Manque t-il (a priori) le début ou la fin du gène ? Quel peut (peuvent) en être la (les) raison(s) ici ?
On peut également grâce à ce résultat identifier les espèces potentielles qui donnent les meilleurs hits
(Q5) Sur quels organismes obtient-on les hits de meilleure E-valeur ? Donnez les noms des trois premiers, ainsi que leur taxonomie ? Ces 3 hits sont-ils "cohérents" (phylogéniquement parlant) ? expliquez.
Nous avons pour le moment découvert qu'au moins un gène est présent. Nous allons désormais utiliser ORF-Finder en utilisant le Genetic codes : 11 Bacterial Code.
(Q6) Que réalise "ORFFinder" ? Combien d'ORF sont trouvés ?
(Q7) Pour chaque ORF trouvé, faites un analyse fine du gène potentiellement associé, en commentant d'abord sa pertinence, en le comparant éventuellement au résultat de BLASTX précédement obtenu, et en précisant les débuts-fins de gène, éventuellement les parties manquantes et les raisons possibles,
(Q8) Pourquoi (Q7) améne des gènes nouveaux qui n'apparaissaient pas lors de la première recherche faite avec BLASTX (Q3,Q4,Q5) ?