5 juil. 2015 Villeneuve d'Ascq (Lille) (France)
Apprentissage de bonnes similarités dans un cadre conjoint semi-supervisé
Maria-Irina Nicolae  1, 2@  , Marc Sebban  1@  , Amaury Habrard  1@  , Eric Gaussier  2@  
1 : LAboratoire Hubert Curien  (LAHC)  -  Site web
CNRS : UMR5516, Université Jean Monnet - Saint-Etienne
18 rue du Professeur LAuras 42000 SAINT-ETIENNE -  France
2 : Laboratoire d'Informatique de Grenoble  (LIG)  -  Site web
CNRS : UMR5217, Université Pierre-Mendès-France - Grenoble II, Institut polytechnique de Grenoble (Grenoble INP), Université Joseph Fourier - Grenoble I
UMR 5217 - Laboratoire LIG - 38041 Grenoble cedex 9 - France Tél. : +33 (0)4 76 51 43 61 - Fax : +33 (0)4 76 51 49 85 -  France

Le rôle clé joué par les métriques en apprentissage automatique a généré ces dernières années un intérêt croissant pour l'optimisation de fonctions de distances et de similarités. Dans cet article, nous traitons le cas où peu de données étiquetées (et potentiellement également peu de données non-étiquetées) sont disponibles, situation qui apparaît fréquemment dans les applications réelles. Nous nous intéressons également aux garanties théoriques de la métrique apprise et du classifieur exploitant celle-ci. Notre approche s'inscrit dans le cadre théorique des fonctions de similarité $(\epsilon, \gamma, \tau)$-bonnes (Balcan et al., 2008) qui a été l'une des premières tentatives destinées à établir un lien entre les propriétés d'une fonction de similarité et le comportement d'un classifieur utilisant cette fonction. Dans cet article, nous étendons cette théorie au cadre où la métrique et le séparateur sont appris conjointement d'une manière semi-supervisée et régularisée. Nous fournissons une analyse théorique de cet apprentissage conjoint en dérivant des bornes basées sur la complexité de Rademacher. L'expérimentation effectuée sur des jeux de données classiques montre les avantages de notre approche par rapport à l'état de l'art.



  • Autre
Personnes connectées : 1