Les génomes et les protéines peuvent être représentés sous la forme de séquences linéaires de caractères: un gène ou un génome est un long mot formé des 4 bases de l'ADN (A, C, G et T), et 20 acides-aminés forment les séquences protéiques. Les séquences biologiques modernes ont divergé au cours des temps évolutifs par accumulation de mutations. Lorsqu'une proportion suffisante d'information est conservée, on sait construire un ensemble de séquences ayant une origine commune (c.a.d. qui sont estimées être originaires d'une même séquence ancestrale, sur la base de leurs ressemblances actuelles (méthodes d'alignement de séquences, programmes BLAST, MUSCL, MAFFT....). Cet ensemble est représenté sous la forme d'un alignement, soit une matrice de caractères, dont chacune des N lignes représente une des séquences biologiques modernes, et chacune des M colonnes représente une position ou site, plus ou moins conservé au cours de l'évolution. Par ailleurs, des modèles mathématiques de l'évolution moléculaire permettent d'estimer, selon les sites de l'alignement présentant des différences parmi les séquences modernes, l'histoire évolutive de ces séquences. Cette histoire est représentée sous la forme d'un arbre binaire, ou arbre phylogénétique. Un arbre phylogénétique peut par exemple correspondre à un arbre des espèces. Chaque noeud interne de l'arbre défini un sous-arbre, et il représente l'ancêtre (organisme ou séquence) des noeuds feuilles du sous-arbre. Les modèles phylogénétiques permettent de plus d'estimer en fonction d'un arbre phylogénétique et d'un alignement, les états ancestraux (aux noeuds internes) des séquences modernes (aux feuilles). On commence actuellement à savoir exploiter les séquences ancestrales ainsi calculées pour déduire d'intéressants résultats biologiques, concernant par exemple les paléo-métabolismes ou les paléo-environnements.
Une interface graphique JAVA permettant de visualiser l'alignement des N séquences modernes, l'arbre phylogénétique représentant leur histoire évolutive, et les séquences ancestrales correspondant aux noeuds internes de l'arbre. En 2012, des étudiants ont développé et partiellement implémenté un algorithme permettant de visualiser, conjointement à l'arbre phylogénétique et à l'alignement de séquences, la structure 3D d'une des protéines dont l'évolution est étudiées.
Les étudiants prouveront, implémenteront (JAVA, outils de la bdd en ligne PDB) et testeront cet algorithme. Aucune connaissance en biologie n'est requise. Le projet requière en revanche un goût pour les algorithmes, JAVA, l'IHM et les problèmes de visualisation de données.
|