Licence- Master - Bioinformatique

TP1 : comparaison de séquences

En guise de préalable : faites une recherche sur Google pour trouver ce qu'est une purine, une pyrimidine, une transition et une transversion.

I. Exercices d'alignement

Voici deux petites séquences d'ADN artificielles :
                     AAGTCATTCGCACATCG
                          AACACATCG
Construisez à la main, sans calculer la matrice de programmation dynamique, l'alignement global optimal avec le système de score suivant Quel est le score ? Vérifiez votre résultat avec le programme d'alignement Align. Ce programme propose plusieurs choix de paramètres: alignment global/local, ADN/protéine, etc. La matrice DNAfull correspond aux score d'identité égal à 5 et au score de substitution égal à -4.



Modifiez les paramètres de telle sorte que l'alignement global suivant soit optimal
                  AAGTCATTCGCACATCG     
                          ..|||||||
                          AACACATCG      

II. Le prion

Les maladies à prions sont des maladies caractérisées par une dégénérescence du système nerveux central. Elles concernent aussi bien l'homme (maladie de Creutzfeldt-Jakob) ou l'animal (Encéphalopathie Spongiforme Bovine ou maladie de la Vache Folle, tremblante du mouton ) et sont transmissibles au sein d'une même espèce et souvent entre espèces différentes. Le mécanisme exact de la maladie n'est actuellement pas connu. Il est toutefois associé à un changement de configuration (B) d'une protéine, appelée PRNP (Prion Protein).

Dans sa forme saine (A), la protéine est présente dans le cerveau sans que sa fonction soit élucidée. Plus d'informations sont disponibles sur le site de Wikipédia. Le but de cette exercice est de comparer les gènes des prions chez l'homme et le bovin.

Recherche des séquences

Il existe plusieurs banques publiques de séquences protéiques. Pour cette séance, vous allez travailler avec les services du NCBI. La banque de données protéique est accessible en sélectionnant protein dans le menu déroulant à gauche.



Faites une recherche par mot-clés pour obtenir la séquence du prion chez l'homme. Attention, les noms d'organismes sont les noms scientifique: homo sapiens pour l'homme. Sélectionnez une entrée avec un identifiant de type NP_. Cela correspond aux séquences les plus propres.

La fiche fournit une description textuelle riche : nom, classification, références bibliographiques, énumération des différentes propriétés biologiques connues et, en fin de rapport, la séquence elle-même.

Récupérez la séquence de la protéine et sauvegardez-la dans un fichier, au format Fasta. Le format Fasta est un format universel pour la manipulation des séquences biologiques. Il se compose simplement d'une ligne d'entête débutant par le caractère >, puis de la séquence elle-même.

 > nom, commentaire etc 
 acaagactagacagtatacggtatagacatagcggatcacagtaga 
 cgctagacgtcgctagcatgcgtggtacaatacatcc
C'est un format valable aussi bien pour les séquences protéiques que pour les séquences nucléiques.

La fiche indique également dans la section DBsource l'identifiant de l'ARN messager correspondant. Récupérez cette séquence et sauvegardez-la dans un nuevau fichier, au format Fasta.

Recommencez ce travail pour la séquence bovine ( bos taurus).

Analyse des séquences avec le dot plot

Le dot plot est un outil graphique pour étudier la similarité entre deux séquences. Il permet égalemnt de repérer des régularités structurelles au sein d'une séquence. L'idée de base est simplement de prendre deux séquences (ou deux copies de la même séquence) en abscisse et en ordonnées d'une grille et da marquer d'un point toutes les poisitions identiques. Les régions similaires entre les deux séquences apparaissent alors visuellement comme des petites diagonales.

Le programme dotlet fait cela. Il faut commencer par entrer les séquences avec lesquelles vous allez travailler, sans l'entête FASTA (bouton input). Le copier-coller se fait avec CTRL c CTRL v. Pour construire le dot plot, cliquez ensuite sur le bouton compute. Une fois le dot plot affiché, vous pouvez vous déplacer dedans à l'aide de la souris.

Pour vous familiariser avec le programme, vous pouvez faire un test d'essai avec la petite séquence artificielle suivante.

ABCDEFGHIJKLMNOPQRMNOPQRMNOPQRSTUVWXYZ

On revient maintenant aux séquences de prion.

Alignement des séquences

Pour confirmer vos conclusions, faites des alignements globaux avec Align entre les deux séquences protéiques d'une part, et entre les deux séquences nucléiques d'autres part. Vous devez retrouvez les mêmes observations que sur le dot plot. Quel est l'effet de la répétition sur l'alignement ?

III. Domaine conservé

Vous allez maintenant comparer séquences de protéines kinase présentes chez la drosophile (Drosophila melanogaster): sevenless.seq et tyrosine.seq.

Construisez le dot plot et déterminez précisément les bornes du domaine kinase.

Pour en savoir plus sur ce domaine, vous pouvez consulter la documentation de la banque de données de motifs protéiques Prosite. L'identifiant du domaine kinase est PDOC00100. Localisez la signature protéique (le motif) dans les séquences. Cela correspond-il à ce que vous aviez observé ?

D'après vous, qu'obtiendra-t-on en faisant un alignment global de ces deux séquences ? Vérifiez-le avec Align. Comparez ensuite les deux séquences avec un alignement local. Vous devez retrouver le site actif signalé par le dot plot.