Recherche de similarités dans les séquences génomiques
Comparaison deux à deux
Pour cette partie, vous allez utilisés les sites suivants :
Dot plot
Vous allez utiliser le programme dotlet. Il faut commencer par entrer les séquences
avec lesquelles vous allez travailler, sans l'entete FASTA (bouton input). Le
copier-coller se fait avec CTRL c CTRL v. La construction du
dot plot se fait ensuite avec compute. Une fois le dot plot affiché, vous pouvez
vous déplacer dedans à l'aide de la souris.
Alignement deux à deux
alignement global : Needle (algorithme de Needleman&Wunsh)
alignement local : Water (algorithme de Smith & Waterman)
Pour les sites de la Génopole et de l'Institut Pasteur, veillez à bien remplir le champ E-mail : comme ce champ n'est pas utile pour les programmes
de cette séance, tapez n'importe quoi (a, xxxx, bécassine, tarzan,...). Le résultat de l'alignement est ensuite disponible dans outfile.out.
Séquence nucléique / séquence protéique
Pour vous familiariser avec les outils d'alignements, vous allez commencer par travailler
avec les séquences nucléiques et protéiques des gènes pl6 chez l'homme et la souris.
Blast versus alignement
Comparez avec le dot plot, et avec l'alignement la sequence de
sangsue (tosee.adn) du TP d'hier avec la
sequence de Gallus gallus (gallus.adn),
qui correspondait a la meilleure sequence trouvee par Blast
(rapport Blast).
Introns / exons
- Les fichiers xlactcag.seq et xlacacr.seq contiennent le gène
de l'actine chez Xenopus laevis et la seconde l'ADNc de ce même
gène. D'après vous, à quoi va ressembler le dot plot ?
- Vérifiez en faisant un dot plot de ces séquences. Combien il y a-t-il d'introns ? Vous pouvez repérer exactement les positions des sites
d'épissage, avec l'algorithme d'alignement global.
Vérifiez avec les annotations portées dans EMBL à l'aide de SRS, par exemple. Les numéros d'accès sont indiqués dans l'entête FASTA de la séquence.
Conservation de domaine
Vous allez maintenant comparer deux autres protéines : sevenless.seq et tyrosine.seq.
- Faites un alignement global des deux séquences. Qu'en pensez-vous ?
- Construisez le dot plot de ces deux séquences. Vous devez observer une similitude locale: c'est un domaine actif
caractéristique des kinases. Localiser précisément ce domaine en vous aidant de l'alignment tool.
Pour en savoir plus sur ce domaine, vous pouvez consulter la documentation de la banque de données Prosite PDOC00100. Prosite est une banque de motifs protéiques.
- Comparez ensuite les deux séquences avec un alignement local. Vous devez retrouver le même résultat.
Analyse d'une séquence
Le dot plot peut également être utilisé pour étudier les régularités structurelles d'une séquence. Vous allez tester cette approche sur les deux exemples suivants.
- Localisation de répétitions : analysez avec le dot plot la séquence de rétrotransposon de tabac contenue dans le fichier ben2.adn.
Combien il y a-t-il de répétitions significatives ?
En utilisant la fenêtre alignment tool, repérer exactement leur position.
- Faible complexité : c'est la séquence contenue dans le fichier falciparum.seq. Vous devez observer quatre
taches. A quoi chacune correspond-elle ?
Alignement multiple
ClustalW: à l'EBI ou au PBIL
Dialign2: le deambulum d'Infobiogen
Définition et recherche de motifs
Nous allons maintenant nous intéresser à une autre famille de protéines,
dont les séquences sont contenues dans le fichier CDP.seq. Ces protéines ont la particularité de présenter le même type d'activité catalytique.
Faites maintenant un alignement multiple des séquences avec
Clustalx.
Vous devez voir apparaitre un motif approché commun,
avec des positions parfaitement conservées.
Modéliser ce motif sous la forme d'une
expression Prosite simple . La syntaxe pour la description du motif est la suivante:
- Tous les éléments de l'expression sont séparés par des tirets -.
- Le joker est la lettre X.
- On peut préciser le nombre d'occurrences avec des parentheses X(5) ou D(2,4).
- Le choix entre plusieurs acides aminés possibles se note avec des crochets [AP].
Le programme ScanProsite permet de localiser
dans la banque Swissprot toutes les séquences contenant un motif spécifié par une expression
de ce type.
Utilisez ScanProsite pour rechercher dans Swissprot les séquences contenant votre motif. Sauvegardez-en au moins une.
En fait, le travail que vous venez de faire manuellement aurait pu être facilité par l'utilisation de programmes
spécialisés dans la gestion de motifs biologiques, avec Prosite. L'analyse d'une séquence se fait avec le programme ProfileScan.
Lancez-le sur une des séquences que vous aviez sauvegardées. Vous devez
trouver le domaine CDP_ALCOHOL_P_TRANSF. En suivant le lien documentation,
on obtient la description du motif utilisé par Prosite qui caractérise CDP_ALCOHOL_P_TRANSF.
Comparez avec votre motif !
Comparaison des méthodes d'alignement
- Faites un alignement multiple des séquences contenues dans le
fichier idy.seq avec Clustalx, puis avec Dialign2
et comparez les résultats.
Pensez-vous qu'il est raisonnable de faire
une confiance aveugle aux programmes d'alignement ? Lequel des deux
alignements multiples vous semble-t-il le plus satisfaisant ? Pour
cela, vous pouvez étudier les annotations de ces séquences, en faisant une recherche dans SRS a partir de leur numeros d'identification, ou
en faisant des dot plots.
- Faites maintenant deux alignements
multiples des séquences de kinase.seq, toujours avec Clustalx et Dialign2.
Cette fois, lequel des deux
alignements vous semble-t-il le plus pertinent ? Pourquoi ?
Helene.Touzet@lifl.fr - septembre 2002