Présentation de l'état de l'art de la recherche dans la reconnaissance des formes, des visages et des actions
La recherche fondamentale doit moins intéresser le public des TechDays (les trois jours de conférences de Microsoft France qui s'achèvent aujourd'hui) que les sessions dites techniques. Pourtant, la session de présentation faite par Jean Ponce ce matin dans une salle à moitié vide, intitulée « Le défi de la vision artificielle », ne manquait pas de technicité.
Professeur à l'Ecole normale supérieure et responsable de l'équipe et du projet Willow, commun à l'ENS et à l'Inria, Jean Ponce a présenté l'état de l'art de la recherche dans la reconnaissance des formes, des visages et des actions, aussi bien dans les photos que dans les vidéos, à l'aide d'algorithmes de modélisation. « La plupart des gens qui s'intéressent au sujet aujourd'hui voient ça comme un problème de reconnaissance statistique des formes », a expliqué Jean Ponce.
L'Inria a d'ailleurs déjà eu des résultats probants ; on se souvient qu'un de ses chercheurs, Chahab Nastar, avait breveté son invention et fondé ce qui est devenu aujourd'hui LTU Technologies. Ce type de technologie est notamment utilisé par la Gendarmerie pour retrouver des similitudes dans des milliers de photos pédophiles.
L'intérêt de la méthode préconisée par Jean Ponce est la capacité de pouvoir associer à un même concept sémantique - une voiture, par exemple - des images qui ne présentent aucune similitude : une calandre, l'arrière d'une voiture, des voitures vues de côté mais de formes très différentes...
La modélisation permet aussi d'évoluer sur une représentation 3D des objets à l'aide d'un nombre relativement restreint de prises de vue. Une vingtaine de photographies avec un bon appareil photo numérique suffit ainsi pour reconstituer une figurine. La technique doit encore être affinée, mais il est clair qu'il n'y aura bientôt plus besoin d'appareillage extrêmement dispendieux.
L'équipe Willow travaille également sur l'ajout d'informations sémantiques aux vidéos. Elle tire d'ailleurs son nom du personnage d'une série pour adolescents, 'Buffy contre les vampires', utilisée comme champ d'expérimentation privilégié - « un peu geeky », a confessé Jean Ponce, devant un public rigolard. Qui a donc eu droit à des extraits de la série, afin de montrer la capacité du programme mis au point par Willow à reconnaître les personnages. « On peut aller plus loin, a indiqué Jean Ponce, en récupérant les sous-titres, et en utilisant une technique de détection du locuteur (en mesurant les mouvements de la bouche). »
Le but est d'enrichir le contenu sémantique lié à la vidéo. Willow travaille d'ailleurs avec l'INA (Institut national de l'audiovisuel) sur ce sujet. Et des liens ont aussi été tissés avec Microsoft Research, sur « la fouille d'images et de vidéos pour les sciences naturelles et humaines », qui vont concerner l'archéologie, l'environnement et la sociologie.
Source : http://www.lemondeinformatique.fr/actualites/lire-techdays-l-ens-l-inria-l-ina-et-ms-research-ensemble-sur-la-vision-artificielle-25338.html
Aucun commentaire:
Enregistrer un commentaire