Reconstruction phylogénétique

Nous allons étudier la phylogénie du gène de la thiorédoxine pour les 10 organismes suivants :

  1. Helicobacter Pylori (Accession Number : P66928)
  2. Bacillus subtilis (Accession Number : P14949)
  3. Homo sapiens (Accession Number : P10599)
  4. Penicillium chrysogenum (Accession Number : P34723)
  5. Listeria monocytogenes (Accession Number : Q9S386)
  6. Escherichia coli (Accession Number : P00274)
  7. Gallus gallus (Accession Number : P08629)
  8. Mus musculus (Accession Number : P10639)
  9. Neurospora crassa (Accession Number : P42115)
  10. Drosophila melanogaster (Accession Number : P47938)

Pour chacun de ces organismes est donné entre parenthèse le numéro d'accession permettant d'identifier la protéine codant pour la thiorédoxine.

Acquisition des données

Pourquoi avoir choisi la thiorédoxine ? Pour faire une phylogénie, il faut commencer par trouver un critère de classification commun à toutes les espèces concernées. La thiorédoxine est une protéine que l'on trouve chez tous les organismes vivants, car elle intervient de dans de nombreux processus cellulaires. C'est donc un bon point de départ.

Préparation des données

Pour pouvoir comparer ces séquences afin de construire une phylogénie, nous devons construire un alignement multiple.

Avant de construire une phylogénie, il faut s'assurer de la correction de l'alignement multiple. Pour cela, il est possible de tirer parti de connaissances extérieures sur la fonction des séquences étudiées, en vérifiant par exemple que les domaines connus sont bien alignés. Pour un ensemble de protéines ayant la même fonction, on doit retrouver un même domaine dans leurs séquences protéiques. Celui-ci doit être visible au niveau de l'alignement.

Pour identifier les domaines des protéines liées à la thiérodoxine, nous allons passer par SRS pour interroger la banque de données InterPro.

Le bon alignement du domaine sur toutes les séquences nous donne une indication sur la pertinence de notre alignement : notre alignement est au moins correct au niveau de ces domaines.

Une petite remarque : en général, il est également souhaitable de "nettoyer" l'alignement multiple, en supprimant les régions non informatives, celles qui sont mal conservées. Sur cet exemple, comme les séquences sont relativement bien conservées, cela n'est pas nécessaire.

Matrice de distances

Il existe plusieurs techniques pour reconstruire un arbre phylogénétique à partir de données moléculaires. En cours, vous avez vu ou vous verrez les méthodes de parcimonie et les méthodes de distance (comme UPGMA). Pour ce TP, vous allez appliquer une méthode de distance, appelée Neighbor Joining. Neighbor Joining est dans le même esprit que UPGMA. Elle regroupe les séquences deux par deux progressivement à partir de la matrice de distances. Mais elle a à son avantage qu'elle ne suppose pas que les distances doivent être ultramétrique.

Nous allons transformer cette alignement en matrice de distance. A partir de l'alignement obtenu nous calculons pour chaque couple d'espèces leur distance évolutive. Le fonctionnement est similaire au calcul du score de l'alignement. Utilisez le lien suivant pour calculer cette matrice de distance.

Construction de l'arbre

L'arbre se trouve sous la forme d'une expression parenthésée dans le fichier outree. Le fichier outfile donne l'arbre sous forme ASCII (Attention : arbre non enraciné !)

Evaluation des résultats

L'arbre que vous venez d'obtenir semble globalement réaliste. Mais il se peut que localement, ou concernant les longueurs des branches, celui-ci ne soit pas correct (la longueur des branches est indicative de l'évolution). Il est possible de tester la robustesse d'un arbre phylogénétique avec des techniques de bootstrap. L'idée du bootstrap est que si l'on effectue des petits changements sur les données on doit être capable de retrouver le même arbre. Concrètement, à partir de l'alignement multiple initial obtenu avec Clustal, on construit des nouveaux alignements qui sont obtenus en échangeant des colonnes. C'est légitime car les méthodes de reconstruction phylogénétique supposent que les sites évoluent de manière indépendante. Pour chaque nouvel alignement, on construit une matrice des distance, puis l'arbre correspondant.

De l'origine des cichlidés

Cet exemple est du à Vekemans Xavier. Nous nous intéressons à l'évolution des Cichlidés, une famille de poissons d'eau douce. Nous nous intéressons à leur évolution dans deux grands lacs Africains : le lac Malawi et le lac Tanganyika.

Parmi les espèces de ces deux lacs, nous porterons notre intérêt sur 12 d'entre elles : Petrochromis sp, Bathybates ferox, lobochilotes labiatus, Tropheus brichardi, Cyphotilapia frontosa et Julidochromis ornatus pour le lac Tanganyika ; Petrotilapia sp., Rhamphochromis sp., Placidochromis milomo, Pseudotropheus microstoma, Cyrtocara moori et Melanochromis auratus pour le lac Malawi.

Ces 12 espèces (6 par lacs) se ressemblent deux à deux d'un point de vue morphologique. Pour une espèce du lac Tanganyika (T) on peut lui associer une espèce du lac Malawi (M). Voici les correspondances :

TanganyikaMalawiRessemblances
Petrochromis spPetrotilapia sp.Herbivore très efficace, adapté au raclage des algues, même habitat
Bathybates feroxRhamphochromis sp.Gros prédateurs pélagiques, même morphologie hydrodynamique
lobochilotes labiatus Placidochromis milomoPrédateurs pétricoles, grosses lêvres charnues et molles
Tropheus brichardiPseudotropheus microstomaHerbivore, bouche infère et dents bicuspides, petite taille
Cyphotilapia frontosaCyrtocara mooriLes mâles portent une bosse frontale
Julidochromis sp.Melanochromis auratusRayures horizontales sur le corps

On peut expliquer ces similitudes par deux types d'évolution

Homoplasie : convergence des caractères

Il y a eu évolution indépendante des poissons dans les deux lacs. les caractères similaires sont dus au milieu similaire ainsi qu'aux mêmes pressions évolutives.

Un des deux lacs (T) est plus ancien que l'autre, on peut supposer qu'il y a d'abord eu une migration de T vers M puis évolution indépendante dans les deux lacs.

Homologie

On considère ici que toutes les ressemblances sont dues à l'existence d'un ancêtre commun.

Il y a donc eu plusieurs évenements de migration de T vers M (un pour chaque espèce).

Le choix de l'hypothèse

Votre but est de déterminer quelle hypothèse est la plus vraissemblance en vous basant sur une analyse phylogénétique. Pour éviter de baser votre phylogénie sur des caractères adaptatifs (morphologiques) vous allez utiliser des séquences non codantes et donc non soumise à la pression évolutive.

Voici les 12 séquences : all.fas.

A vous de faire l'analyse phylogénétique selon les différentes méthodes vues en cours :

Aide

Vous téléchargerez et installerez cette archive (zip, exe) qui contient les logiciels suivants :

a) clustalw

b.1) phylo_win (logiciel interactif pour la phylogénie) associé à sea_view (permet de lire un alignement au format clustalw et de le transformer en alignement au format maise : Seul ce format est lisible par phylo_win)

b.2) l'ensemble des logiciels du paquetage Phylip. Une aide complète est disponible ici. Vous pouvez en particulier utiliser les 2 méthodes suivantes :

distances : dnadist calcule une matrice de distances à partir de l'alignement multiple de clustalw. Vous pouvez exploiter son résultat à l'aide de neighbor (implémente la méthode UPGMA et Neighboor Joining), afin d'obtenir un arbre non enraciné (voir note 3).

parsimonie, maximum de vraisemblance : dnapars, dnaml construisent un arbre non enraciné directement à partir de l'alignement multiple de clustalw (voir note 3).

note 1 : pour la génération de bootstrap, vous utiliserez seqboot à partir de l'alignement clustalw. Vous utiliserez également consensus pour réaliser un consensus strict des arbres calculés (voir note 3).

note 2 : pour visualiser les arbres, vous utiliserez les logiciel drawtree (arbre non enraciné), et drawgram (arbre enraciné) (voir note 3).

note 3 : certains scripts (fichiers avec l'extention "*.bat") ont été écrits pour vous aider à executer successivement une suite de commandes. SCRIPT_DNADIST.BAT, SCRIPT_DNAPARS.BAT, SCRIPT_DNAML.BAT construisent les arbres phylogénétiques du fichier multifasta all.fas (ADN) selon les différentes méthodes (distances UPGMA/NJ, Parsimonie, Maximum de Vraisemblance). Les autres scripts réalisent les opérations équivalentes avec bootstrap. Vous pouvez les executer (double click gauche), ou les visualisez et/ou les modifier (click droit, modifier).

L'enracinement de l'arbre

On vous propose deux jeux de séquences de la famille des Cichlidés, l'un provenant de l'espèce Geophagus brasiliensis d'Amérique du Sud (newworld.fas), l'autre de l'espèce Cyprichromis Leptosoma de l'île de Malasa située dans le lac Tanganyika. (malasaisland.fas).

L'évolution des Cichlidés


Last modified: Wed May 24 14:02:40 CEST 2006