Maîtrise informatique - option bio-informatique

TP de Bioinformatique : alignement



Le but de ce TP est de vous faire faire l'analyse bio-informatique d'une séquence mystère, pour trouver sa fonction. Tout ce que vous savez, c'est que votre séquence un fragment d'ADN extrait du génome humain.

> séquence humaine mystère
gaattcgagatgcgaatgagcagcagccattttgatgttgtgagcatcggaacgtttctgcgtccgtacactgtccttttgttacttagataatggctaaggcaagcagtccgggccaca
ggagtcaaaggcttttcgccagctcctaaacgctggaagtgtaattttttttcttcttataaaattaaacaaacccttttagaaaggaacactcgctttatctcttcgaccgaatttact
atacatggatatatatatattatcttctgttcacagttaaaactaggaatagcatagtcataagttaacaccatcatgttgagaacgtcaacattgttcaccaagcgtgtccaaccaagc
ctattttctagaaacattcttagattgcaatccacagctgcaatccctaagactcaaaaaggtgtcatcttttatgagaataaggggaacctgcattacaaagatatccctgtccccgag
cctaagccaaatgaaattttaatcaacgttaaatattctggtgtatgtcacaccgatttacatgcttggcacggcgattggccattacctgttaaactaccattagtaggtggtcatgaa
ggtgctggtgtagttgtcaaactaggttccaatgtcaagggctggaaagtcggtgatttagcaggtatcaaatggctgaacggttcttgtatgacatgcgaattctgtgaatcaggtcat
gaatcaaattgtccagatgctgatttatctggttacactcatgatggttctttccaacaatttgcgaccgctgatgctattcaagccgccaaaattcaacagggtaccgacttggccgaa
gtagccccaatattatgtgctggtgttactgtatataaagcactaaaagaggcagacttgaaagctggtgactgggttgccatctctggtgctgcaggtggcttgggttccttggccgtt
caatatgcaactgcgatgggttacagagttctaggtattgatgcaggtgaggaaaaggaaaaacttttcaagaaattggggggtgaagtattcatcgactttactaaaacaaagaatatg
gtttctgacattcaagaagctaccaaaggtggccctcatggtgtcattaacgtttccgtttctgaagccgctatttctctatctacggaatatgttagaccatgtggtaccgtcgttttg
gttggtttgcccgctaacgcctacgttaaatcagaggtattctctcatgtggtgaagtccatcaatatcaagggttcttatgttggtaacagagctgatacgagagaagccttagacttc
tttagcagaggtttgatcaaatcaccaatcaaaattgttggattatctgaattaccaaaggtttatgacttgatggaaaagggcaagattttgggtagatacgtcgtcgatactagtaaa
taatagcgtgttacgcacccaaacttttatgaaagtctttgtttataatgatgaggtttataaatatatagtggagcaaagattaatcactaaatcaagaagcagtaccagtattttttc
tatatcaagtagtgataatggaaatagcccaaatttggcttccgtcgac

Fouille dans les banques de données

La première étape est de chercher dans les banques de données de séquences s'il existe des séquences connues similaires. Cela se fait avec BLAST, qui compare une séquence requête à toutes les séquences d'une banque de données. L'interface la plus conviviale se trouve sur le site du NCBI : http://www.ncbi.nlm.nih.gov/BLAST/.

  1. Ouvrez le formulaire dédié à la comparaison de séquences nucléiques: Standard nucleotide-nucleotide BLAST [blastn],
  2. collez la séquence étudiée dans la zone de saisie appelée Search,
  3. il faut restreindre la recherche aux données homo sapiens à l'aide de l'option 'select from' qui est sur la première ligne de la section 'Options for advanced blasting',
  4. cliquez sur le bouton BLAST! pour lancer la requête. Pour obtenir le résultat, il faut cliquer sur format après le temps d'attente indiqué.
Les séquences trouvées sont classées par similarité décroissante. Dans la seconde partie du rapport, les alignements locaux correspondants sont affichés.

BLAST trouve-t-il des gènes similaires ? Quelles sont les valeurs des E-values ?

Les seules séquences similaires trouvées par BLAST ne sont pas des gènes, et les zones de similarité sont très restreintes, avec des E-values médiocres. Ce sont sans doute des similarités dues au hasard. Cette recherche est donc infructueuse. Vous allez recommencer la recherche avec cette fois la séquence protéique correspondant au fragment d'ADN.
  1. Ouvrez ORF finder. ORF finder permet de traduire une séquence ADN en protéine, suivant les 6 cadres de lecture possibles.
  2. Collez la séquence mystère, avec l'entête >séquence humaine mystère et lancez la requête
  3. Vous obtenez 6 cadres de lecture. Le bon candidat est celui qui donne la protéine la plus longue. En cliquant dessus, vous obtenez la séquence protéique correspondante.
  4. Créez un fichier qui contient la séquence protéique, avec une entête FASTA >protéine mystère
  5. Faites une recherche avec BLAST, mais pour les séquences protéiques cette fois : Standard protein-protein BLAST [blastp]. Prenez toujours homo sapiens comme organisme.
  6. Ne vous occupez pas du domaine putatif prédit, et récupérez les résultats de BLAT avec Format. Comparez la qualité des alignements et les valeurs des E-values avec le résultat obtenu sur la séquence nucléique.
  7. A partir de l'intitulé des séquences proposées par BLAST, quelle hypothèse peut-on faire sur la fonction de la protéine ?
Avec la séquence protéique putative, la recherche sous BLAST donne des protéines partageant toute la même fonction. C'est encourageant. On va donc conserver ces séquences.

Sauvegardez cinq séquences parmi les meilleures trouvées par BLAST dans des fichiers séparés. Pour cela, cliquez sur le lien avec le numéro d'accès de la séquence : vous êtes dans la banque de données protéique. Récupérez la séquence au format FASTA, grâce au menu déroulant à côté du bouton 'Display'.

Alignements 2 à 2

Les deux recherches sous BLAST conduisent à des résultats qui à première vue peuvent sembler contradictoires: il n'existe pas de séquence ADN humaine similaire, alors qu'il existe des protéines présentant une bonne similarité avec la séquence traduite. Nous allons voir pourquoi.

Comparez les séquences protéiques trouvées par BLAST avec la protéine mystère avec un dot plot, un alignement global, puis un alignement local.

Dot plot : le programme dotlet. Il faut commencer par entrer les séquences avec lesquelles vous allez travailler, sans l'entete FASTA (bouton input). Le copier-coller se fait avec CTRL c CTRL v. La construction du dot plot se fait ensuite avec compute. Une fois le dot plot affiché, vous pouvez vous déplacer dedans à l'aide de la souris.

Alignement deux à deux: Pour cela, vous allez utiliser les algorithmes de programmation dynamique d'alignement global et local à http://www.ebi.ac.uk/emboss/align/. Veillez à cocher les bonnes options, Needle pour l'alignement global, Water pour le local, et à préciser le type de séquence Protein ou DNA. Pour les autres paramètres, gardez les valeurs par défaut.

A chaque fois, vous devez observer une similarité locale avec la séquence mystère. BLAST ne s'est donc pas trompé en vous proposant cette séquence. Vous allez maintenant faire la comparaison entre les séquences ADN correspondantes.
  1. Pour se procurer la séquence ADN du gène de la sorbitol dehydrogenase, ouvrez Genbank. Genbank est une banque qui recence toutes les séquences ADN connues
  2. Faites une recherche avec les mots clés sorbitol dehydrogenase homo sapiens
  3. Parmi les reponses trouvées, sélectionnez la première qui correspond à un gène (mRNA, pour ARN messager)
  4. Récupérez la séquence ADN correspondante, et sauvegardez-la dans un fichier à part.
  5. Construisez le dot plot et/ou l'alignement de la séquence mystère ADN avec le gène de la sorbitol hydrogènase.
  6. Testez la significativité de l'alignement avec PRSS. PRSS permet de générer des séquences aléatoires de même composition et de comparer ainsi le score obtenu avec des scores obtenus par hasard. Veillez à cocher DNA et prenez 500 séquences.
Dans ce cas, il n'y a pas de similarité. Ce n'était donc pas une erreur de BLAST. L'explication vient de la redondance du code génétique : lors de la traduction, des triplets de nucléotides différents peuvent correspondre à un même acide aminé. Il y a 64 triplets, pour seulement 20 acides aminés. De ce fait, des séquences ADN différentes peuvent donner lieu à la même protéine. Il est donc plus judicieux de faire une recherche sur les séquences protéiques, quand celles-ci sont connues, que sur les séquences ADN.

Alignement multiple et domaine actif

Pour voir si cette zone de similarité détectée dans les séquences protéiques est commune à toutes les séquences, il faut construire un alignement multiple. Le programme Clustal ( http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_clustalw.html ) fait cela.

Collez les 6 séquences au format FASTA dans la fenêtre principale, et lancez le calcul.

Au bout de quelques secondes, vous devez obtenir un alignement multiple. Les couleurs correspondent à la qualité de conservation des colonnes. Dans l'alignement multiple, une zone est particulièrement bien conservée, autour du motif GHE. C'est certainement la signature d'un domaine actif dans la protéine. Pour vérifiez cette hypothèse, il faut construire un motif pour le domaine. La manière la plus simple de représenter un motif est de construire une expression régulière. Le programme ScanProsite permet ensuite de localiser dans la banque de protéines Swissprot toutes les séquences contenant un motif spécifié par une expression régulière. La syntaxe pour la description du motif est la suivante:
- Tous les éléments de l'expression sont séparés par des tirets -.
- Le joker est la lettre X.
- On peut préciser le nombre d'occurrences avec des parenthèses X(5) ou D(2,4).
- Le choix entre plusieurs acides aminés possibles se note avec des crochets [AP].

A partir de l'alignement multiple, construisez un motif pour le site actif présumé.

Utilisez ScanProsite (http://www.expasy.org/tools/scanprosite/) pour rechercher toutes les séquences protéiques connues qui contiennent votre motif. Ne vous trompez pas de fenêtre : c'est dans la fenêtre bleue.

Si le motif est bien caractéristique d'une fonction, toutes les séquences trouvées par ScanProsite doivent avoir la même fonction que les séquences trouvées par BLAST. Si ce n'est pas le cas, affinez votre motif.

En guise de conclusion, la protéine que nous avons étudiée est une enzyme sorbitol déshydrogénase, proche d'une alcool déshydrogénase. Vous pouvez avoir plus d'information ici.

S'il vous reste du temps

Le but de ce nouvel exercice est de mettre à l'épreuve l'heuristique de BLAST, sur la séquence suivante.
   Hélène Touzet (touzet_at_lifl_dot_fr), bureau 229, bâtiment M3 extension - USTL