DEUG SV - Génétique et Bioinformatique

TP1 : manipulation de séquences


Accès aux banques de données

Il existe trois grandes banques publiques d'ADN : il s'agit de d'EMBL (Europe), GenBank (Etats-Unis) et DDBJ (Japon). Pour cette séance, nous vous proposons de travailler avec Genbank, ce qui est un choix purement arbitraire, puisque les trois banques offrent les mêmes services, avec les mêmes numéros d'accès normalisés. Si vous souhaitez avoir plus d'information sur Genbank, c'est ici.

Dot plot

Le programme dotlet permet de construire des dot plots entre des séquences nucléiques ou des séquences protéiques. Il faut commencer par entrer les séquences avec lesquelles vous allez travailler, sans l'entête FASTA (bouton input). Le copier-coller se fait avec CTRL c CTRL v. Pour construire le dot plot, cliquez ensuite sur le bouton compute. Une fois le dot plot affiché, vous pouvez vous déplacer dedans à l'aide de la souris.

Construisez le dot plot pour les deux séquences U09584 et NM_019704 (celles du gène PL6), puis pour les séquences protéiques correspondantes.

Vous devez observer que les séquences protéiques sont mieux conservées que les séquences nucléiques, ce qui s'explique par la redondance du code génétique : des triplets de nucléotides différents peuvent être traduits par le même acide aminé.

Alignement deux à deux

Pour l'alignement de deux séquences, utilisez le programme de l'EBI. Veillez à cocher les bonnes options, Needle pour l'alignement global, Water pour le local, et à préciser le type de séquence Protein ou DNA. Pour les autres paramètres, gardez les valeurs par défaut.

Faites un alignement global des deux séquences U09584 et NM_019704 (celles du gène PL6). Alignez ensuite les séquences protéiques correspondantes. Vous devez retrouver le même résultat qu'avec le dot plot.

Recherche dans les banques de données : BLAST

Ouvrez BLAST, et choisissez BLASTN, qui est la version de Blast pour les séquences nucléiques. Par défaut, la recherche se fait sur l'ensemble des banques publiques (nr).

Homologues ou pas ?

Vous allez maintenant travailler avec deux séquences mystères:
      > sequence mystere 1
        1 gaattcgaga tgcgaatgag cagcagccat tttgatgttg tgagcatcgg aacgtttctg
       61 cgtccgtaca ctgtcctttt gttacttaga taatggctaa ggcaagcagt ccgggccaca
      121 ggagtcaaag gcttttcgcc agctcctaaa cgctggaagt gtaatttttt ttcttcttat
      181 aaaattaaac aaaccctttt agaaaggaac actcgcttta tctcttcgac cgaatttact
      241 atacatggat atatatatat tatcttctgt tcacagttaa aactaggaat agcatagtca
      301 taagttaaca ccatcatgtt gagaacgtca acattgttca ccaagcgtgt ccaaccaagc
      361 ctattttcta gaaacattct tagattgcaa tccacagctg caatccctaa gactcaaaaa
      421 ggtgtcatct tttatgagaa taaggggaac ctgcattaca aagatatccc tgtccccgag
      481 cctaagccaa atgaaatttt aatcaacgtt aaatattctg gtgtatgtca caccgattta
      541 catgcttggc acggcgattg gccattacct gttaaactac cattagtagg tggtcatgaa
      601 ggtgctggtg tagttgtcaa actaggttcc aatgtcaagg gctggaaagt cggtgattta
      661 gcaggtatca aatggctgaa cggttcttgt atgacatgcg aattctgtga atcaggtcat
      721 gaatcaaatt gtccagatgc tgatttatct ggttacactc atgatggttc tttccaacaa
      781 tttgcgaccg ctgatgctat tcaagccgcc aaaattcaac agggtaccga cttggccgaa
      841 gtagccccaa tattatgtgc tggtgttact gtatataaag cactaaaaga ggcagacttg
      901 aaagctggtg actgggttgc catctctggt gctgcaggtg gcttgggttc cttggccgtt
      961 caatatgcaa ctgcgatggg ttacagagtt ctaggtattg atgcaggtga ggaaaaggaa
     1021 aaacttttca agaaattggg gggtgaagta ttcatcgact ttactaaaac aaagaatatg
     1081 gtttctgaca ttcaagaagc taccaaaggt ggccctcatg gtgtcattaa cgtttccgtt
     1141 tctgaagccg ctatttctct atctacggaa tatgttagac catgtggtac cgtcgttttg
     1201 gttggtttgc ccgctaacgc ctacgttaaa tcagaggtat tctctcatgt ggtgaagtcc
     1261 atcaatatca agggttctta tgttggtaac agagctgata cgagagaagc cttagacttc
     1321 tttagcagag gtttgatcaa atcaccaatc aaaattgttg gattatctga attaccaaag
     1381 gtttatgact tgatggaaaa gggcaagatt ttgggtagat acgtcgtcga tactagtaaa
     1441 taatagcgtg ttacgcaccc aaacttttat gaaagtcttt gtttataatg atgaggttta
     1501 taaatatata gtggagcaaa gattaatcac taaatcaaga agcagtacca gtattttttc
     1561 tatatcaagt agtgataatg gaaatagccc aaatttggct tccgtcgac
et
      > sequence mystere 2
        1 ggcacgaggc ccctgcgtgc ggcgcttctc ccaggcccca ccttccatcc agtgccctgg
       61 accctcggct gggtagcgcc accagagcga ccaaacgtcc cgcgccttcc aggccgcact
      121 ccagagccaa aagagctcca tggcggcggc ggccaagccc aacaaccttt ccctggtggt
      181 gcacggaccg ggggacttgc gcctggagaa ctatcctatc cctgaaccag gcccaaatga
      241 ggtcttgctg aggatgcatt ctgttggaat ctgtggctca gatgtccact actgggagta
      301 tggtcgaatt gggaatttta ttgtgaaaaa gcccatggtg ctgggacatg aagcttcggg
      361 aacagtcgaa aaagtgggat catcggtaaa gcacctaaaa ccaggtgatc gtgttgccat
      421 cgagcctggt gctccccgag aaaatgatga attctgcaag atgggccgat acaatctgtc
      481 accttccatc ttcttctgtg ccacgccccc cgatgacggg aacctctgcc ggttctataa
      541 gcacaatgca gccttttgtt acaagcttcc tgacaatgtc acctttgagg aaggcgccct
      601 gatcgagcca ctttctgtgg ggatccatgc ctgcaggaga ggcggagtta ccctgggaca
      661 caaggtcctt gtgtgtggag ctgggccaat cgggatggtc actttgctcg tggccaaagc
      721 aatgggagca gctcaagtag tggtgactga tctgtctgct acccgattgt ccaaagccaa
      781 ggagattggg gctgatttag tcctccagat ctccaaggag agccctcagg aaatcgccag
      841 gaaagtagaa ggtcagctgg ggtgcaagcc ggaagtcacc atcgagtgca cgggggcaga
      901 ggcctccatc caggcgggca tctacgccac tcgctctggt gggaccctcg tgcttgtggg
      961 gctgggctct gagatgacca ccgtacccct actgcatgca gccatccggg aggtggatat
     1021 caagggcgtg tttcgatact gcaacacgtg gccagtggcg atttcgatgc ttgcgtccaa
     1081 gtctgtgaat gtaaaacccc tcgtcaccca taggtttcct ctggagaaag ctctggaggc
     1141 ctttgaaaca tttaaaaagg gattggggtt gaaaatcatg ctcaagtgtg accccagtga
     1201 ccagaatccc tgatgttaat gggctctgcc ctcatcccca cagtcttggg atctcagggc
     1261 acaatggctg gacatgggtg ggctctgatg cagaactttc tcttttgaat gttaagaata
     1321 actaatacaa ttcattgtga acagaagtcc ttaagcagag gaattggtgt gccttaaaga
     1381 tacaatctgg gatagtttgg gggaacttgt agccagaatg ccctgttcat gctgagcaaa
     1441 gttcagcaag tagagcagag tttggcaggc aggtgccagg aactcccctt cttcctggag
     1501 tgccttcatt gaggaaggaa atctggccct tgggtttcct ggttccactg ctactgaccc
     1561 agaggggaat gagggctgag ttatgaaaag ataacttcat gaagacttaa ctggcccaga
     1621 agctgatttt catgaaaatc tgccactcag ggtctgggat gaaggcttgt cagcacttcc
     1681 agtttagaac gcaatgtttc tagagacata ttggctgttt gttttgatga taaaaggaga
     1741 ataagaaaag gcatcacttt cctggatcca ggataatttt taaaccaatc aaatgaaaaa
     1801 aacaaacaaa caaaaaagga aatgtcatgt gaggttaaac cagtttgcat tcccctaatg
     1861 tggaaaaagt aagaggacta ctcagcactg tttgaagatt gcctcttcta cagcttctga
     1921 gaattgtgtt atttcacttg ccaagtgaag gaccccctcc ccaacatgcc ccagcccacc
     1981 cctaagcatg gtcccttgtc accaggcaac caggaaactg ctacttgtgg acctcaccag
     2041 agaccaggag ggtttggtta gctcacagga cttcccccac cccagaagat tagcatccca
     2101 tactagactc atactcaact caactaggct catactcaat tgatggttat tagacaattc
     2161 catttctttc tggttattat aaacagaaaa tctttcctct tctcattacc agtaaaggct
     2221 cttggtatct ttctgttgga atgatttcta tgaacttgtc ttattttaat ggtgggtttt
     2281 ttttctggta agatttagac ctaaatcgca tcatgccaac ttgtgacttt gagactattc
     2341 atcaagaatg aggatatagt agccatgaca tagcttgagc tatagccttt aattccttac
     2401 tttggctatg ggtggagggt gagtttgaag aggttctgat tttcttgtaa cctgggaaag
     2461 ccatgacctt gtgcccgatt ctttcagatt gctttgggta ataaatattg gtggtggtat
 


Helene.Touzet@lifl.fr - USTL