Licence - master - Bio-informatique

TP4 : phylogénie

Dans chacun des deux exercices, vous allez utiliser les logiciels suivants: Seaview et Phylo_win doivent etre téléchargés et installés à partir des deux sites suivants:
http://pbil.univ-lyon1.fr/software/seaview.html et http://pbil.univ-lyon1.fr/software/phylowin.html.

Seaview permet de plus de lire un alignement au format clustalw et de le transformer en alignement au format mase, seul format accepté par phylo_win.

Reconstruction phylogénétique

Le but de cet exercice est d'étudier la phylogénie du gène de la thiorédoxine pour les 10 organismes suivants:
  1. Helicobacter pylori (P66928)
  2. Bacillus subtilis (P14949)
  3. Homo sapiens (P10599)
  4. Penicillium chrysogenum (P34723)
  5. Listeria monocytogenes (Q9S386)
  6. Escherichia coli (P00274)
  7. Gallus gallus (P08629)
  8. Mus musculus (P10639)
  9. Neurospora crassa (P42115)
  10. Drosophila melanogaster (P47938)

Acquisition des données

Q 1. Pour chacun des dix organismes, faites une recherche sur le web pour savoir à quelle famille il appartient. A la main, avec vos connaissances et les informations fournies par Swissprot, faites une classification rapide.

Q 2. Les séquences sont disponibles dans le fichier thioredoxine.seq.

Pourquoi avoir choisi la thiorédoxine ? Pour faire une phylogénie, il faut commencer par trouver un critère de classification commun à toutes les espèces concernées. Par exemple, c'est une mauvaise idée de faire une phylogénie incluant des plantes en étudiant le gène qui code la couleur des yeux, ou de faire une phylogénie avec des mammifères à partir d'un gène qui code la forme des nageoires. La thiorédoxine est une protéine que l'on trouve chez tous les organismes vivants, car elle intervient de dans de nombreux processus cellulaires. C'est donc un bon point de départ. Si vous le souhaitez, vous pouvez voir la structure de la thiorédoxine de Escherichia Coli.

Q 3. Réalisez un alignement multiple des 10 séquences avec Clustal. Le résultat se trouve dans le fichier infile.aln. Savegardez le fichier résultat pour l'alignement et ouvrez le avec Seaview.

Q 4. Avant de construire une phylogénie, il faut s'assurer de la correction de l'alignement multiple. Pour cela, il est possible de tirer parti de connaissances extérieures sur la fonction des séquences étudiées, en vérifiant par exemple que les domaines connus sont bien alignés. Prosite permet de localiser les sites connus. Lancez-le sur une des séquences de thioredoxine. Vous devez trouver un domaine caractéristique de la famille. Quel est le motif associé à ce domaine ? Vérifiez sur l'alignement que le motif est présent et bien aligné dans toutes les séquences. Cela garantit que l'alignement est pertinent au moins dans cette région.

Une petite remarque : en général, il est également souhaitable de "nettoyer" l'alignement multiple, en supprimant les régions non informatives, celles qui sont mal conservées. Sur cet exemple, comme les séquences sont relativement bien conservées, cela n'est pas nécessaire.

Construction de l'arbre

Il existe plusieurs techniques pour reconstruire un arbre phylogénétique à partir de données moléculaires. En cours, nous avons vu les méthodes de parcimonie et les méthodes de distance (comme UPGMA). Pour ce TP, vous allez appliquer une méthode de distance, appelée Neighbor Joining. Neighbor Joining est dans le même esprit que UPGMA. Elle regroupe les séquences deux par deux progressivement à partir de la matrice de distances.

Q 4. Avec Seaview, sauvegardez l'alignement multiple au format mase, puis lancez Phylo_win sur le fichier d'alignement au format mase.

Q 5. Pour construire une phylogénie, il faut préciser plusieurs paramètres

Le résultat est obtenu avec le bouton make tree. Le calcul crée un fichier texte nommé, qui contient la matrice des distances deux à deux utilisée par l'algorithme de Neighbor joining. Editez cette matrice, et cherchez, à l'oeil, quelles sont les espèces les plus proches.

Q 6. Comparez l'arbre avec la classification communément admise que vous avez retracée en début d'exercice.

Q 7. On observe trois espèces qui se distinguent bien des autres. En observant l'alignement multiple, expliquez pourquoi. Expliquez pourquoi les mammifères et le poulet sont regroupés. Au niveau des séquences, qu'est-ce qui différencie le poulet des mammifères ?

Evaluation des résultats

L'arbre que vous venez d'obtenir semble globalement réaliste. Mais il se peut que localement, ou concernant les longueurs des branches, celui-ci ne soit pas correct (la longueur des branches est indicative de l'évolution). Il est possible de tester la robustesse d'un arbre phylogénétique avec des techniques de bootstrap. L'idée du bootstrap est que si l'on effectue des petits changements sur les données on doit être capable de retrouver le même arbre. Concrètement, à partir de l'alignement multiple initial obtenu avec Clustal, on construit des nouveaux alignements qui sont obtenus en échangeant des colonnes. C'est légitime car les méthodes de reconstruction phylogénétique supposent que les sites évoluent de manière indépendante. Pour chaque nouvel alignement, on construit une matrice des distance, puis l'arbre correspondant.

Q 8. Il est possible de faire une analyse avec bootstrap, en cochant boostrap. Faites un bootstrap avec 50 arbres (pour que le temps de calcul ne soit pas trop long).

Q 9. Combien de fois le groupe poulet-mammifères est-il retrouvé ? Les noeuds auxquels on peut avoir confiance sont ceux ayant une valeur de bootstrap supérieure à 80%. Identifiez ces noeuds sur le premier arbre calculé.

De l'origine des cichlidés

Les Cichlidés sont une famille de poissons d'eau douce. Nous nous intéressons à leur évolution dans deux grands lacs d'Afrique de l'Est: le lac Malawi et le lac Tanganyika. Nous travaillerons plus spécialement sur douze espèces, six vivant dans le lac Tanganyika, et six dans le lac Malawi.

Ce qui est mystérieux, et que nous tacherons d'élucider, c'est que ces douze espèces se ressemblent deux à deux. A chaque espèce du lac Tanganyika (T), on peut associer une espèce du lac Malawi (M) sur des critères morphologiques:

TanganyikaMalawiRessemblances
Petrochromis spPetrotilapia sp.Herbivore très efficace, adapté au raclage des algues, même habitat
Bathybates feroxRhamphochromis sp.Gros prédateurs pélagiques, même morphologie hydrodynamique
lobochilotes labiatus Placidochromis milomoPrédateurs pétricoles, grosses lêvres charnues et molles
Tropheus brichardiPseudotropheus microstomaHerbivore, bouche infère et dents bicuspides, petite taille
Cyphotilapia frontosaCyrtocara mooriLes mâles portent une bosse frontale
Julidochromis sp.Melanochromis auratusRayures horizontales sur le corps

Deux scénarios évolutifs différents sont possibles pour expliquer cet état de fait:

Votre but est de déterminer quelle hypothèse est la plus vraisemblable en vous basant sur une analyse phylogénétique.

Voici les 12 séquences : all.fas.

Q 1. Comme précédememnt, faites l'analyse avec Clustalw, Seaview et Phylo_win.

Q 2. Por enraciner l'arbre précédent, et avoir davanatge de confiance dans le scénario évolutif proposé, il faut utiliser un groupe externe (outgroup). On vous propose deux jeux de séquences de la famille des Cichlidés, l'un provenant de l'espèce Geophagus brasiliensis d'Amérique du Sud (newworld.fas), l'autre de l'espèce Cyprichromis Leptosoma de l'île de Malasa située dans le lac Tanganyika. (malasaisland.fas). Lequel des deux jeux utiliser pour l'enracinement? Pour quelle raison? Construire l'arbre phylogénétique de l'ensemble, et trouver l'enracinement de l'arbre des 12 espèces

Q 3. Depuis environ quelle période les espèces de Cichlidés d'Amérique du Sud ont-elles divergé de leurs cousins éloignés d'Afrique ? Vous pouvez vous aider de ce site.

Q 4. Pour conclure, le site Tree of Life permet de voyager dans l'arbre phylogénétique des espèces. Localisez y le super-odre des Cichlidés, en vuos aidant éventellement de ces informations.




   Hélène Touzet (touzet_at_lifl_dot_fr), bureau 206, bâtiment M3 extension - USTL