Ent?te

Logo du LIFL

Depuis le 1er janvier 2015 le LIFL et le LAGIS forment le laboratoire CRIStAL

  1. Formation doctorale

Thèse de

Christophe Salperwyck

vendredi 30 novembre 2012
Université de Lille 3

Apprentissage incrémental en ligne sur flux de données

Monsieur Philippe PREUX, Professeur à l’Université de Lille 3, Directeur de thèse
Monsieur Younès BENNANI, Professeur à l’Université de Paris 13
Madame Pascale KUNTZ-COSPEREC, Professeur à l’Université de Nantes
Monsieur Vincent LEMAIRE, Docteur HDR Orange Labs, Lannion
Monsieur René QUIRIOU, Chargé de recherches HDR INRIA, Rennes
Monsieur Djamel Abdelkader ZIGHED, Professeur à l’Université de Lyon 2

Résumé
L'apprentissage statistique propose un vaste ensemble de techniques capables de construire des modèles
prédictifs à partir d'observations passées. Ces techniques ont montré leurs capacités à traiter des
volumétries importantes de données sur des problèmes réels. Cependant, de nouvelles applications
génèrent de plus en plus de données qui sont seulement visibles sous la forme d'un flux et doivent être
traitées séquentiellement. Parmi ces applications on citera : la gestion de réseaux de télécommunications, la
modélisation des utilisateurs au sein d'un réseau social, le web mining. L'un des défis techniques est de
concevoir des algorithmes permettant l'apprentissage avec les nouvelles contraintes imposées par les flux de
données. Nous proposons d'aborder ce problème en proposant de nouvelles techniques de résumé de flux
de données dans le cadre de l'apprentissage supervisé. Notre méthode est constituée de deux niveaux. Le
premier niveau utilise des techniques incrémentales de résumé en-ligne pour les flux qui prennent en
compte les ressources mémoire et processeur et possèdent des garanties en termes d'erreur. Le second
niveau utilise les résumés de faible taille, issus du premier niveau, pour construire le résumé final à l'aide
d'une méthode supervisée performante hors-ligne. Ces résumés constituent un prétraitement qui nous
permet de proposer de nouvelles versions du classifieur bayésien naïf et des arbres de décision fonctionnant
en-ligne sur flux de données. Les flux de données peuvent ne pas être stationnaires mais comporter des
changements de concept. Nous proposons aussi une nouvelle technique pour détecter ces changements et
mettre à jour nos classifieurs.
Mots clés : Apprentissage incrémental, Flux de données, Résumés, Changements de concept

Ours

UMR 8022 - Laboratoire d'Informatique Fondamentale de Lille - Copyright © 2012 Sophie TISON - Crédits & Mentions légales

Page respectant XHTML et CSS.

Pour tout commentaire / Comments and remarks : webmaster