Recherche de similarités dans les séquences génomiques


Comparaison deux à deux

Pour cette partie, vous allez utilisés les sites suivants :
Dot plot Vous allez utiliser le programme dotlet. Il faut commencer par entrer les séquences avec lesquelles vous allez travailler, sans l'entete FASTA (bouton input). Le copier-coller se fait avec CTRL c CTRL v. La construction du dot plot se fait ensuite avec compute. Une fois le dot plot affiché, vous pouvez vous déplacer dedans à l'aide de la souris.

Alignement deux à deux
alignement global : Needle (algorithme de Needleman&Wunsh)

alignement local : Water (algorithme de Smith & Waterman) Pour les sites de la Génopole et de l'Institut Pasteur, veillez à bien remplir le champ E-mail : comme ce champ n'est pas utile pour les programmes de cette séance, tapez n'importe quoi (a, xxxx, bécassine, tarzan,...). Le résultat de l'alignement est ensuite disponible dans outfile.out.

Séquence nucléique / séquence protéique

Pour vous familiariser avec les outils d'alignements, vous allez commencer par travailler avec les séquences nucléiques et protéiques des gènes pl6 chez l'homme et la souris.

Blast versus alignement

Comparez avec le dot plot, et avec l'alignement la sequence de sangsue (tosee.adn) du TP d'hier avec la sequence de Gallus gallus (gallus.adn), qui correspondait a la meilleure sequence trouvee par Blast (rapport Blast).

Introns / exons

Conservation de domaine

Vous allez maintenant comparer deux autres protéines : sevenless.seq et tyrosine.seq.

Analyse d'une séquence

Le dot plot peut également être utilisé pour étudier les régularités structurelles d'une séquence. Vous allez tester cette approche sur les deux exemples suivants.

Alignement multiple

ClustalW: à l'EBI ou au PBIL
Dialign2: le deambulum d'Infobiogen

Définition et recherche de motifs

Nous allons maintenant nous intéresser à une autre famille de protéines, dont les séquences sont contenues dans le fichier CDP.seq. Ces protéines ont la particularité de présenter le même type d'activité catalytique.

Faites maintenant un alignement multiple des séquences avec Clustalx.

Vous devez voir apparaitre un motif approché commun, avec des positions parfaitement conservées.

Modéliser ce motif sous la forme d'une expression Prosite simple . La syntaxe pour la description du motif est la suivante:

- Tous les éléments de l'expression sont séparés par des tirets -.
- Le joker est la lettre X.
- On peut préciser le nombre d'occurrences avec des parentheses X(5) ou D(2,4).
- Le choix entre plusieurs acides aminés possibles se note avec des crochets [AP].

Le programme ScanProsite permet de localiser dans la banque Swissprot toutes les séquences contenant un motif spécifié par une expression de ce type. Utilisez ScanProsite pour rechercher dans Swissprot les séquences contenant votre motif. Sauvegardez-en au moins une.

En fait, le travail que vous venez de faire manuellement aurait pu être facilité par l'utilisation de programmes spécialisés dans la gestion de motifs biologiques, avec Prosite. L'analyse d'une séquence se fait avec le programme ProfileScan. Lancez-le sur une des séquences que vous aviez sauvegardées. Vous devez trouver le domaine CDP_ALCOHOL_P_TRANSF. En suivant le lien documentation, on obtient la description du motif utilisé par Prosite qui caractérise CDP_ALCOHOL_P_TRANSF. Comparez avec votre motif !

Comparaison des méthodes d'alignement


Helene.Touzet@lifl.fr - septembre 2002