DEUG SV - Génétique et Bioinformatique

TP2 : annotation d'une séquence



Le but du TP est de d'obtenir le plus d'information possible à partir d'un fragment de génome anonyme. La séquence à étudier est
        1 gaattcggca cgaggcgcgg aggaggaggt tcccggaagc cacgcgcact gggagcagcg
       61 gcgaccgcag ctggaggccc ggagcgcctg cggggctggc agaggcgagg gaggttgcgg
      121 gtaggaaggg cgggactgcg cgcgccccct gcgtcccgcg cacctcgggg ccggtccatg
      181 ctcccgacgg ctgcgggctt cagcatctgg ggccaggttg gggcggcggg gtccagggcg
      241 cagtggtgcg gccgatgcgc cggggccgga gctgaaggcc gcgctgcggg gctgggacag
      301 cactggcatc tccagagcag gcccggggca gcaagggagg cgccgcgatg ccagacgaaa
      361 atatcttcct gttcgtgccc aacctcatcg gttatgcccg gattgtcttc gccatcattt
      421 ctttctactt catgccctgc tgccccctca cggcctcctc cttctacctg ctcagcggcc
      481 tgctggacgc tttcgatgga cacgctgctc gcgctcttaa tcaaggaacc cggtttgggg
      541 ccatgctgga catgctgacg gaccgctgct ccaccatgtg cctgttggtc aacctggccc
      601 tgctgtaccc tggagccacg ctgttcttcc aaatcagcat gagtttggat gtggccagtc
      661 actggctgca cctccacagt tctgtggtcc gaggcagtga gagtcacaag atgatcgact
      721 tgtccgggaa tccggtgctt cggatctact acacctcgag gcctgctctg ttcaccttgt
      781 gtgctgggaa tgagctcttc tactgcctcc tctacctgtt ccatttctct gagggacctt
      841 tagttggctc tgtgggactg ttccggatgg gcctctgggt cactgccccc atcgccttgc
      901 tgaagtcgct catcagcgtc atccacctga tcacggccgc ccgcaacatg gctgccctgg
      961 acgcagcaga ccgcgccaag aagaagtgac gctggagccc cgggtcctgg ctgcccacct
     1021 gccctgggag tcttgctgtg ccacacagct ccccaccccc tgctaggagg tcccagtctc
     1081 acgccttcct catgtgttgt tctacctgct gggatggggg tcagcctctc tttggtgacg
     1141 tcacgttctc tgggatcctg aggacccggg cctcaaatca gggaggatac gcgggaggcc
     1201 ccctccatcc aggcggtgct cctggggtgc cgggaccggg cagtgtcaca ccctgcctgc
     1261 tcagtcctgg ggtccgagat gctagggacg cttgagtgag ggaggtggtg tgagggccag
     1321 gtttcctgaa aggcgggagt cagacctccg cccccagcca gagcaagctt ggggcaccat
     1381 gcccaggagg gaagaagcca tccacagcct tccctgtcac cggctcctct gtcctgcctg
     1441 accctggtcc tggcgggact tcactatttg acttggtttc ctttcagata ttcttggctc
     1501 agggcctggg ttgagggagc ttagggaagg acgtccgtct gggtgctttt cctccagttt
     1561 gctggctggc ttctccgtct acccacagtg acctcacaga gaggccctcc tgccacccat
     1621 gctcatgtgg tgtccccacc gcccacttgt ttgatgtcac tgactgtcta catgtattta
     1681 tattcttgat attttctacc ctcactagaa tgtaaactcc atgaaggcac agacttttct
     1741 tgttctcttc tctatcccta gagtaagacc aacttgaacc tggcatatag tagctgctta
     1801 ataaatactc gtctgtcaaa aaaaaaaaaa aaa

Q 1. D'après vous, quel est le type de cette séquence ?

Recherche de protéines potentielles

La premiere étape est d'étudier les six cadres de lecture de cette séquence, pour détecter les ORF (cadres ouverts de lecture).

Q 2. Utilisez le logiciel ORFfinder pour détecter les ORF. On ne va s'intéresser qu'aux ORF de taille supérieure a 300. Combien il y en a-t-il ? Repérez-les sur la séquence.

Pour savoir si une au moins de ces ORF est bien un gène, il est recommandé de procéder à une recherche d'homologie avec des protéines connues.

Q 3. Saugardez chacune des protéines correspondant aux ORF données par ORFfinder.

Q 4. Faites une recherche d'homologie dans une banque protéique avec BLAST.

Q 5. Laquelle des ORF vous semble la plus convaincante ? Conservez le rapport de BLAST correspondant.


Avant de continuer, vérifiez avec moi que vous avez les bons résultats.

Fonction du gène

Nous allons maintenant essayer de déterminer la fonction de la protéine associée au gène que vous avez trouvé.

Q 6.Quelle sont les fonctions des protéines similaires trouvées avec BLAST ?

En plus de la comparaison par alignement, on peut étudier la fonction en cherchant des domaines conservés. Cela permet par exemple de voir si la similarité détectée par l'alignement porte sur des parties fonctionnelles.

Q 7. Sélectionnez 4 séquences similaires trouvées par BLAST dont l'annotation assurent que celles-ci partagent la même fonction que la séquene du début. Prenez des séqquences qui ont à peu près la meme longueur, pour que l'alignment soit plus facile à faire.

Q 8. Faites un alignement multiple avec Clustal. Les positions conservées apparaissent en couleur.

Q 9. Repérez la zone la mieux conservée dans l'alignment (si vous ne trouvez pas, demandez-moi), et modéliser cette zone comme un motif. La syntaxe est la suivante:

- Tous les éléments de l'expression sont séparés par des tirets -.
- Le joker est la lettre X.
- On peut préciser le nombre d'occurrences avec des parentheses X(5) ou D(2,4).
- Le choix entre plusieurs acides aminés possibles se note avec des crochets [AP].
Le programme ScanProsite permet de localiser dans la banque Swissprot toutes les séquences contenant un motif. Utilisez ScanProsite pour rechercher dans Swissprot les séquences contenant votre motif. Trouvez-vous des séquences avec ma même fonction ? Si non, il faut que vous corrigiez votre motif, éventuellement en incorporant une nouvelle séquence dans l'alignement multiple.


Quelle est la conclusion de ce TP ?


Helene.Touzet@lifl.fr - USTL