Algorithmes pour la classification taxonomique de données de métagénomique

Stage de recherche 2012-2013

Equipe : Bonsai (LIFL et Inria Lille Nord Europe)

Encadrants : Samuel Blanquart, Laurent Noé et Hélène Touzet (prenom.nom@lifl.fr)

Mots-clés: bioinformatique, évolution, génome, algorithmique du texte et des arbres, méthodes bayesiennes

L'équipe Bonsai est partenaire du projet TARA OCEANS, dont l'objectif est l'étude du plancton marin et de sa biodiversité. TARA OCEANS prévoit notamment le séquençage massif de microorganismes marins prélevés à des stations de pompage réparties sur les mers du globe. Il s'agit plus précisément de données de métagenomique, c'est-à-dire que le matériel génétique est extrait à partir d'un échantillon environnemental (de l'eau de mer ici), et est constitué d'une mixture d'ADN provenant de différents organismes. C'est une technique très récente, qui permet d'avoir une photographie à l'échelle moléculaire d'un milieu écologique donné. La métagénomique est également utilisée pour étudier la composition des sols et leur pollution, ou en santé humaine pour étudier les bactéries hôtes.

D'un point de vue bio-informatique, ce type de données de séquences posent des problèmes inédits en terme de traitement primaire (en raison de la masse et de la nature des données produite), de classification (en raison de la présence d'une multitude d'organismes dans le même échantillon). Dans ce cadre, l'équipe Bonsai a proposé une méthode pour le filtrage de séquences d'ARN ribosomiques, qui sont des molécules présentes dans toutes les espèces de l'arbre de la vie et dans tous les types cellulaires [1]. C'est uen première étape vers la classification taxonomique: reconnaitre les espèces connues présentes dans l'échantillon ("Who is there ?"), identifier les séquences correspondant à des espèces inconnues et les situer dans un arbre phylogénétique de référence.

Le travail à réaliser durant ce mémoire consistera à

Ce stage est rémunéré sous forme de gratification, et pourra être suivi d'une thèse.

Bibliographie

  1. SortMeRNA: Fast and accurate filtering of ribosomal RNAs in metatranscriptomic data. E. Kopylova, L. Noé, H. Touzet Bioinformatics (2012) [www]
  2. PhylOTU: A High-Throughput Procedure Quantifies Microbial Community Diversity and Resolves Novel Taxa from Metagenomic Data. Sharpton TJ, Riesenfeld SJ, Kembel SW, Ladau J, O'Dwyer JP, et al. (2011) [www]
  3. Accurate and fast estimation of taxonomic profiles from metagenomic shotgun sequences. B. Liu, T. Gibbons, M. Ghodsi, T. Treangen and M. Pop. BMC Genomics 2011, 12(Suppl 2):S4 [www]
  4. Clustering 16S rRNA for OTU prediction: a method of unsupervised Bayesian clustering. X. Hao, R. Jiang and T.Chen. Bioinformatics (2011) 27 (5): 611-618 [www]
  5. New Algorithms and Methods to Estimate Maximum-Likelihood Phylogenies: Assessing the Performance of PhyML 3.0. S. Guindon, J-F Dufayard, V. Lefort, M. Anisimova, W. Hordijk, O. Gascuel. Syst Biol (2010) 59 (3): 307-321 [www]