Au sein de l'espèce humaine, les génomes sont à plus de 99% identiques. Les différences entre individus sont souvent des mutations sur un seul nucléotide (SNP), et, parfois, des différences un peu plus conséquentes. Grâce à l'évolution des techniques de séquençage, on peut aujourd'hui obtenir le génomes de nombreux individus et étudier l'impact de ces variations dans une population.
Le projet se concentre sur un aspect algorithmique : comment stocker efficacement de nombreux génomes très similaires ? Avec Jan Holub (Univ. Prague), nous avons conçu une nouvelle structure de données particulièrement adaptée à ce problème. Le but de ce projet sera d'implémenter cette structure de données et quelques algorithmes associés (recherche d'une séquence, ajout ou suppression d'un variant, statistiques sur les variants), et de tester l'ensemble sur des séquences réelles.
Programmation en C ou C++. Goût pour l'algorithmique.
|