DEUG SV - Génétique et Bioinformatique

TP3 : phylogénie



Le but du TP est d'étudier la phylogénie du gène de la thiorédoxine pour les 10 organismes suivants:
  1. Helicobacter pylori
  2. Bacillus subtilis
  3. Homo sapiens
  4. Penicillium chrysogenum
  5. Listeria monocytogenes
  6. Escherichia coli
  7. Gallus gallus
  8. Mus musculus
  9. Neurospora crassa
  10. Drosophila melanogaster
Q O. Pourquoi avoir choisi la thioredoxine ?

Acquisition des données

Q 1. Allez chercher les séquences en faisant une recherche par mots-clés dans la banque de données Swissprot via le système d'interrogation SRS. Pour que la recherche soit plus rapide, vous pouvez faire une recherche multi-critères, sur la description (thioredoxin) et l'organisme. Pour chaque organisme, vérifiez qu'il s'agit de la bonne protéine. Sauvegardez la séquence au format FASTA, et notez la taxonomie associée.

Q 2. A la main, faites une classification rapide à partir des informations taxonomiques fournies par Swissprot.

Q 3. Réalisez un alignement multiple avec Clustal. Parmi les options, sélectionnez 'PAM' pour la matrice protéique utilisée. Le résultat se trouve dans le fichier infile.aln. Conservez bien cette page.

Q 4. Avant de construire une phylogénie, il faut s'assurer de la correction de l'alignement multiple. Pour cela, il est possible de tirer parti de connaissances extérieures sur la fonction des séquences étudiées, en vérifiant par exemple que les domaines connus sont bien alignés. Prosite permet de localiser les sites connus. Lancez-le sur une des séquences de thioredoxine. Vous devez trouver un domaine caractéristique de la famille. Quel est le motif associé à ce domaine ? Vérifiez sur l'alignement que le motif est présent et bien aligné dans toutes les séquences. Cela garantit que l'alignement est pertinent au moins dans cette région.

Une petite remarque : en général, il est également souhaitable de "nettoyer" l'alignement multiple, en supprimant les régions non informatives, celles qui sont mal conservées. Sur cet exemple, comme les séquences sont relativement bien conservées, cela n'est pas nécessaire.

Méthode de reconstruction

Il existe plusieurs techniques pour reconstruire un arbre phylogénétique à partir de données moléculaires. En cours, nous avons vu les méthodes de parcimonie et les méthodes de distance (comme UPGMA). Pour ce TP, vous allez appliquer une méthode de distance, appelée Neighbor Joining. Neighbor Joining est dans le même esprit que UPGMA. Elle regroupe les séquences deux par deux progressivement à partir de la matrice de distances.

Q 5. Reprenez la page de résultat de Clustal. Pour calculer la matrice des distances à partir de l'alignement multiple, sélectionnez protdist dans le premier menu déroulant (celui qui s'applique à infile.aln). Choisissez 'PAM' comme modèle et lancez le calcul. La matrice de distances est obtenue dans le fichier outfile. A vue d'oeil, quels sont les organismes les plus proches, les plus éloignés ?

Construction de l'arbre

Q 6. Avec la matrice, nous allons calculer un arbre. Pour cela, sélectionnez bionj dans le menu déroulant.

Q 7. Pour visualiser l'arbre, sélectionnez drawtree. Dans les options, donnez la valeur 0.2 à Relative character height. Vous obtenez un fichier graphique au postscript. Sauvegardez-le, en changeant son nom par défaut. Pour le visualiser, utilisez ghostview (demandez-moi comment).

Q 8. Comparez l'arbre avec la classification communément admise que vous avez retracée en début de TP.

Q 9. On observe trois espèces qui se distinguent bien des autres. En observant l'alignement multiple, expliquez pourquoi. Expliquez pourquoi les mammifères et le poulet sont regroupés. Qu'est-ce qui différencie le poulet des mammifères ?

Evaluation des résultats

L'arbre que vous venez d'obtenir semble globalement réaliste. Mais il se peut que localement, ou concernant les longueurs des branches, celui-ci ne soit pas correct (la longueur des branches est indicative de l'évolution). Il est possible de tester la robustesse d'un arbre phylogénétique avec des techniques de bootstrap. L'idée du bootstrap est que si l'on effectue des petits changements sur les données on doit être capable de retrouver le même arbre. Concrètement, à partir de l'alignement multiple initial obtenu avec Clustal, on construit des nouveaux alignements qui sont obtenus en échangeant des colonnes. C'est légitime car les méthodes de reconstruction phylogénétique supposent que les sites évoluent de manière indépendante. Pour chaque nouvel alignement, on construit une matrice des distance, puis l'arbre correspondant.

Q 10. Il est possible de faire une analyse avec bootstrap à partir de prodist. Comme le temps d'attente est trop long, le résultat a été calculé à l'avance, avec 50 matrices de distances. Le fichier est accessible ici.Vous trouvez la liste des séquences et des lignes contenant des '*'. Chaque ligne représente des sous-arbres rencontrés parmi les 50 arbres calculés (une '*' en position i indique que la séquence i est dans le sous-arbre). La valeur en bout de ligne indique le nombre fois ou ce sous-arbre a été retrouvé.

Q 11. Calculez les 50 arbres correspondants avec bionj, comme précédemment. Cette fois, vous devez préciser explicitement les matrices de distances.

Q 12. A partir des 50 arbres du bootsrap, il faut en obtenir un seul. En faisant un consensus strict, on peut faire l'union des 50 arbres, ce qui permet de mettre en évidence les noeuds mal résolus dans les arbres. Choisissez le programme consense dans le menu déroulant, puis l'option strict.

Q 13. Choisissez le programme drawtree avec les mêmes options que précedemment.

Q 14. Que pensez-vous de l'arbre obtenu ? Pouvions-nous réellement tirer des conclusions de l'arbre obtenu sans bootstrap ?

Q 15. L'utilisation du consensus peut aussi se faire d'une autre manière en affectant à chaque noeud des valeurs de bootstrap. A chaque noeud, on indique le degré de confiance, en comptant le nombre d'arbres pour lesquels les deux groupes issus du noeud sont séparés. C'est ce qu'on appelle le consensus majoritaire. Revenez au calcul du consensus. Choisissez cette fois l'option consensus majoritaire. Le résultat est dans le fichier texte outfile.

Q 16. Combien de fois le groupe poulet-mammifères est-il retrouvé ?

Q 17. Les noeuds auxquels on peut avoir confiance sont ceux ayant une valeur de bootstrap supérieure à 80%. Identifiez ces noeuds sur le premier arbre calculé.

Pour conclure

Le site Tree of Life (l'arbre de la vie !) permet de voyager dans l'arbre phylogénétique des espèces.


Helene.Touzet@lifl.fr - USTL