Année
2011-2012
Laboratoire
d’Informatique Fondamentale de Lille, Equipe FOX-MIIRE
Directeur :
Chabane.Djeraba@lifl.fr
Encadrants et contacts : Marius.Bilasco@lifl.fr, Jean.Martinet@lifl.Fr
Le travail attendu vise à extraire des informations contextuelles (notamment geospatiale) à partir des images et des flux vidéo. L’apparition dans le contenu visuel des éléments permettant d’identifier des lieux (Tour Eiffel, Pyramide du Louvre, etc.) et/ou éléments divers (plaque d’entrée dans une agglomération) n’est pas encore exploitée de manière systématique pour enrichir les informations décrivant le contenu (annotations, geo-localisation, etc.)
La capacité d’automatiser de tels procédés présente un intérêt certain pour l’annotation et l’organisation dynamique des bibliothèques visuelles, ainsi que pour l’enrichissement des interactions à partir des contenus visuels. Une image ou une vidéo ne sont plus coupés du reste du monde, mais peuvent être reliées de manière intelligente avec d’autres contenus visuels ou non issus des collections privées et/ou du Web sémantique et social.
Des solutions existent pour annoter semi-automatiquement des contenus visuels. Nous pouvons distinguer trois grandes familles. La première exploite des sources d’information audio et/ou textuelle accompagnant le contenu visuel afin d’en tirer des informations sur les lieux, les personnes et les objets présentés. La deuxième exploite uniquement l’information visuelle présente en identifiant des objets d’intérêt et en les caractérisant. La troisième famille correspond aux approches hybrides.
Le travail attendu inclut :
1) Un état de l’art sur les méthodes d’extraction d’information contextuelle à partir des contenus visuels ;
2) La proposition d’une méthode permettant d’identifier des objets connus à l’avance et de localiser ensuite le contenu visuel par rapport à ces objets ;
3) Réaliser un prototype implémentant l’approche ;
4) L’évaluation des performances du prototype sur une base d’image et de vidéos extraits depuis l’Internet présentant divers monuments de la ville de Paris.
Ce travail s’inscrit dans projet en cours de financement. Il est donc envisageable de poursuivre ce travail dans le cadre d’une thèse.
IRCICA, Parc de la Haute Borne, Villeneuve d’Ascq
Rémuneration
Gratification
1. Hong Liu; Haitao
Yu; Yuexian Zou; Zhenhua Huo; , "A Slope K
method for image based localization," Robotics and Biomimetics
(ROBIO), 2009 IEEE International Conference on , vol., no., pp.535-538, 19-23
Dec. 2009
2. Dovgalecs, V.; Megret,
R.; Wannous, H.; Berthoumieu,
Y.; , "Semi-supervised learning for location recognition from wearable
video," Content-Based Multimedia Indexing (CBMI), 2010 International
Workshop on , vol., no., pp.1-6, 23-25 June 2010
3. Pnevmatikakis, A., Soldatos, J., Talantzis, F., and Polymenakos, L. 2009. Robust multimodal audio---visual processing for advanced context awareness in smart spaces. Personal Ubiquitous Comput. 13, 1 (Jan. 2009), 3-14
4. Li-Jia Li;
Socher, R.; Li Fei-Fei; , "Towards total scene understanding: Classification,
annotation and segmentation in an automatic framework," Computer Vision
and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on , vol., no.,
pp.2036-2043, 20-25 June 2009
5. Changhu Wang, Shuicheng Yan, Lei Zhang,
Hong-Jiang Zhang, "Multi-label sparse coding for automatic image
annotation," Computer Vision and Pattern Recognition, IEEE Computer
Society Conference on, pp. 1643-1650, 2009 IEEE Conference on Computer Vision
and Pattern Recognition, 2009
6. http://www.quaero.org/