Sujet de recherche Master MIAGE et INFO dans l'équipe FOX-MIIRE axe vidéo

Année 2012-2013

Titre : Localisation spatiale à partir des images et des flux vidéo

Laboratoire d’Informatique Fondamentale de Lille, Equipe FOX-MIIRE

Directeur : Chabane.Djeraba@lifl.fr

Encadrants et contacts : Marius.Bilasco@lifl.fr, Jean.Martinet@lifl.Fr

 

Contexte

Le travail attendu vise à extraire des informations contextuelles (notamment geospatiale) à partir des images et des flux vidéo. L’apparition dans le contenu visuel des éléments permettant d’identifier des lieux (Tour Eiffel, Pyramide du Louvre, etc.) et/ou éléments divers (plaque d’entrée dans une agglomération) n’est pas encore exploitée de manière systématique pour enrichir les informations décrivant le contenu (annotations, geo-localisation, etc.)

La capacité d’automatiser de tels procédés présente un intérêt certain pour l’annotation et l’organisation dynamique des bibliothèques visuelles, ainsi que pour l’enrichissement des interactions à partir des contenus visuels. Une image ou une vidéo ne sont plus coupés du reste du monde, mais peuvent être reliées de manière intelligente avec d’autres contenus visuels ou non issus des collections privées et/ou du Web sémantique et social.

Des solutions existent pour annoter semi-automatiquement des contenus visuels. Nous pouvons distinguer trois grandes familles. La première exploite des sources d’information audio et/ou textuelle accompagnant le contenu visuel afin d’en tirer des informations sur les lieux, les personnes et les objets présentés. La deuxième exploite uniquement l’information visuelle présente en identifiant des objets d’intérêt et en les caractérisant. La troisième famille correspond aux approches hybrides.

Objectifs

Le travail attendu inclut :

1)      Un état de l’art sur les méthodes d’extraction d’information contextuelle à partir des contenus visuels ;

2)      La proposition d’une méthode permettant d’identifier des objets connus à l’avance et de localiser ensuite le contenu visuel par rapport à ces objets ;

3)      Réaliser un prototype implémentant l’approche ;

4)      L’évaluation des performances du prototype sur une base d’image et de vidéos extraits depuis l’Internet présentant divers monuments de la ville de Paris.

Ce travail s’inscrit dans projet en cours de financement. Il est donc envisageable de poursuivre ce travail dans le cadre d’une thèse.

Lieu de stage

IRCICA, Parc de la Haute Borne, Villeneuve d’Ascq

Rémuneration 

Gratification

Références 

1.      Hong Liu; Haitao Yu; Yuexian Zou; Zhenhua Huo; , "A Slope K method for image based localization," Robotics and Biomimetics (ROBIO), 2009 IEEE International Conference on , vol., no., pp.535-538, 19-23 Dec. 2009

2.      Dovgalecs, V.; Megret, R.; Wannous, H.; Berthoumieu, Y.; , "Semi-supervised learning for location recognition from wearable video," Content-Based Multimedia Indexing (CBMI), 2010 International Workshop on , vol., no., pp.1-6, 23-25 June 2010

3.      Pnevmatikakis, A., Soldatos, J., Talantzis, F., and Polymenakos, L. 2009. Robust multimodal audio---visual processing for advanced context awareness in smart spaces. Personal Ubiquitous Comput. 13, 1 (Jan. 2009), 3-14

4.      Li-Jia Li; Socher, R.; Li Fei-Fei; , "Towards total scene understanding: Classification, annotation and segmentation in an automatic framework," Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on , vol., no., pp.2036-2043, 20-25 June 2009

5.      Changhu Wang,  Shuicheng Yan,  Lei Zhang,  Hong-Jiang Zhang, "Multi-label sparse coding for automatic image annotation," Computer Vision and Pattern Recognition, IEEE Computer Society Conference on, pp. 1643-1650, 2009 IEEE Conference on Computer Vision and Pattern Recognition, 2009

6.      http://www.quaero.org/