Année 2011-2012
Laboratoire
d’Informatique Fondamentale de Lille, Equipe FOX-MIIRE
Directeur :
Chabane.Djeraba@lifl.fr
Encadrants et contacts : Jean.Martinet@lifl.fr, Ismail.Elsayad@lifl.fr
La détection automatique et la reconnaissance d’objets dans grande quantité d’images ou de vidéo requiert l’extraction de caractéristiques locales (couleur, texture, forme, contour, etc.) dans les régions de l’image.
Tout comme l’ordre des mots dans un texte, la distribution et l’agencement spatial de ces régions (ou « mots visuels ») n’est pas aléatoire. En effet, l’assemblage des régions selon une configuration précise représente une scène dont le contenu est identifiable et interprétable.
L’étude des configurations des mots visuels dans une grande quantité de données permet de dégager des agencements fréquents (par exemple des feuilles au dessus d’un tronc d’arbres, ou des yeux proches d’un nez ou d’une bouche). La connaissance de ces agencements, qui facilite l’indexation et la désambigüisation des mots visuels, nécessite une analyse du contexte d’occurrence des mots visuels dans les images. Nous nous intéressons à l’utilisation de techniques de réduction de dimensions pour effectuer cette analyse, comme par exemple l’Analyse en Composantes Principales (ACP), qui est une méthode de statistique multivariée consistant à transformer des variables statistiquement "corrélées" (par exemple les groupes de mots visuels récurrents) en variables indépendantes les unes des autres, "composantes principales" (comme les objets de l’image).
Les objectifs du stage proposé sont les suivants:
1. Etat de l’art sur les techniques de réduction de dimensions en indexation d’images
2. Proposition et mise en œuvre de la technique retenue
3. Evaluation de la proposition sur des benchmarks classiques, en comparaison aux approches existantes
Les
compétences souhaitables pour ce stage sont une bonne connaissance des
techniques statistiques et mathématiques pour
le traitement des images, en algorithmique, et la maîtrise
des langages Java ou C++. La lecture et l'écriture
de l'anglais scientifique est souhaitée.
IRCICA,
Parc de la Haute Borne, Villeneuve d’Ascq
Gratification
[1] Sivic,
J., B. Russell, A. Efros, A. Zisserman,
et W. Freeman (2005). Discovering
objects and their location in images. In ICCV, volume
1, pp. 370-377.
[2] Zheng,
QF., WQ .Wang, et W. Gao
(2006). Effective and Efficient Object-Based Image retrieval
using visual phrases. In Proceedings of the 14th
annual ACM international conference on Multimedia. pp. 77-80. ACM Press.
[3] Martinet, J., & S.
Satoh (2007). A study of intra-modal association rules for visual modality representation.
In Content-Based Multimedia Indexing. pp. 344-350. CBMI. IEEE Computer Society.
[4] Ismail Elsayad,
Jean Martinet, Thierry Urruty, Chaabane
Djeraba. Effective phrase-based content-based image
retrieval based on association rules and spatial weighting, VISAPP'2010.
|
||||
|
||||