Apprentissage automatique Méthodes à noyaux - motivation

Similar documents
Apprentissage automatique Machine à vecteurs de support - motivation

Apprentissage automatique Classification linéaire - fonction discriminante

Outils de Recherche Opérationnelle en Génie MTH Astuce de modélisation en Programmation Linéaire

A set of formulas for primes

Kato s inequality when u is a measure. L inégalité de Kato lorsque u est une mesure

DETERMINING HIGH VOLTAGE CABLE CONDUCTOR TEMPERATURES. Guy Van der Veken. Euromold, Belgium. INVESTIGATIONS. INTRODUCTION.

Random variables. Florence Perronnin. Univ. Grenoble Alpes, LIG, Inria. September 28, 2018

A set of formulas for primes

Optimisation par réduction d incertitudes : application à la recherche d idéotypes

Exercise sheet n Compute the eigenvalues and the eigenvectors of the following matrices. C =

Content. Content. Introduction. T. Chateau. Computer Vision. Introduction. Outil projectif permettant l acquisition d une scène 3D sur un plan 2D

On a multivariate implementation of the Gibbs sampler

A DIFFERENT APPROACH TO MULTIPLE CORRESPONDENCE ANALYSIS (MCA) THAN THAT OF SPECIFIC MCA. Odysseas E. MOSCHIDIS 1

Pattern Recognition and Machine Learning. Bishop Chapter 6: Kernel Methods

MGDA II: A direct method for calculating a descent direction common to several criteria

The effect of joint condition and block volume on GSI and rockmass strength estimation

Chapitre 2 : Sélection de variables et pénalisations. Agathe Guilloux Professeure au LaMME - Université d Évry - Paris Saclay

An explicit formula for ndinv, a new statistic for two-shuffle parking functions

It s a Small World After All Calculus without s and s

arxiv:cs/ v1 [cs.dm] 21 Apr 2005

( ) 2 ( kg) ( 9.80 m/s 2

The impact of heterogeneity on master-slave on-line scheduling

Thèse de Doctorat de L'Université Paris-Saclay. L'Université Paris-Sud. Inria Saclay Ile-de-France

ANNALES SCIENTIFIQUES L ÉCOLE NORMALE SUPÉRIEURE. Cluster ensembles, quantization and the dilogarithm. Vladimir V. FOCK & Alexander B.

TOLERABLE HAZARD RATE FOR FUNCTION WITH INDEPENDENT SAFETY BARRIER ACTING AS FAILURE DETECTION AND NEGATION MECHANISM

arxiv: v1 [math.ca] 16 Jul 2018

The epsilon method: analysis of seepage beneath an impervious dam with sheet pile on a layered soil

On the direct kinematics of planar parallel manipulators: special architectures and number of solutions

Regression on Parametric Manifolds: Estimation of Spatial Fields, Functional Outputs, and Parameters from Noisy Data

RAIRO. INFORMATIQUE THÉORIQUE

Modélisation & simulation de la génération de champs magnetiques par des écoulements de métaux liquides. Wietze Herreman

Introduction to Machine Learning

THE RESOLUTION OF SAFFARI S PHASE PROBLEM. Soit K n := { p n : p n (z) = n

Autour des Triangles Cassés

REVUE FRANÇAISE D INFORMATIQUE ET DE

ANNALES. FLORENT BALACHEFF, ERAN MAKOVER, HUGO PARLIER Systole growth for finite area hyperbolic surfaces

Cheng Soon Ong & Christian Walder. Canberra February June 2018

Lecture 2: The figures of the city, 1: interactions

Electre Tri-C: A multiple criteria sorting method based on characteristic reference actions

NORME INTERNATIONALE INTERNATIONAL STANDARD

On Metric and Statistical Properties of Topological Descriptors for geometric Data

Poisson s ratio effect of slope stability calculations

(Generalized) Polynomial Chaos representation

From Newton s Fluxions to Virtual Microscopes

Introduction Dual Representations Kernel Design RBF Linear Reg. GP Regression GP Classification Summary. Kernel Methods. Henrik I Christensen

Uncoupled variational formulation of a vector Poisson problem Jiang Zhu 1, Luigi Quartapelle 2 and Abimael F. D. Loula 1 Abstract { This Note provides

ANNALES DE LA FACULTÉ DES SCIENCES DE TOULOUSE

Statistiques en grande dimension

Best linear unbiased prediction when error vector is correlated with other random vectors in the model

A Singularity-Free Method for the Time-Dependent Schrödinger Equation for Nonlinear Molecules

A. N. IUSEM B. F. SVAITER

POSITIVE CIRCUITS AND MAXIMAL NUMBER OF FIXED

Second-order prediction and residue vector quantization for video compression

Pablo Enrique Sartor Del Giudice

PRÉPARÉE À L UNIVERSITÉ PARIS-SUD. Institut de Physique Théorique de Saclay. ECOLE DOCTORALE N 564 École Doctorale Physique en Île de France

Commande prédictive robuste par des techniques d observateurs à base d ensembles zonotopiques

présentée pour obtenir LE GRADE DE DOCTEUR EN SCIENCES DE L UNIVERSITÉ PARIS-SUD 11 par

THÈSE. présentée et soutenue publiquement le 04/10/2013 pour l obtention du. Doctorat de l Université de Lorraine. spécialité automatique par

Sur la conjecture d André-Oort et courbes modulaires de Drinfeld

Non-Standard Multiset. Jean-Louis Giavitto IRCAM umr 9912 CNRS UPMC & INRIA projet MuSync

Time-varying cascade model for flow forecasting

A set of formulas for primes

La question posée (en français, avec des mots justes ; pour un calcul, l'objectif doit être clairement écrit formellement)

Determining Extreme Capability Requirements Using Orthogonal Arrays: An Empirical Study

JOURNAL DE THÉORIE DES NOMBRES DE BORDEAUX

Lily Yen and Mogens Hansen

Γ -convergence and Sobolev norms

Non-uniform consolidation around vertical drains installed in soft ground Consolidation non-uniforme autour de drains verticaux dans un sol faible

Bilinear Modelling of Cellulosic Orthotropic Nonlinear Materials

arxiv: v3 [stat.me] 24 Nov 2016 École Doctorale de Science Mathématiques de Paris Centre Thèse de Doctorat Discipline: Mathématiques

EE613 Machine Learning for Engineers. Kernel methods Support Vector Machines. jean-marc odobez 2015

A set of formulas for primes

Construction et Analyse de Fonctions de Hachage

DOCTEUR DE L UNIVERSITÉ PARIS XII

Basis Function Selection Criterion for Modal Monitoring of Non Stationary Systems ABSTRACT RÉSUMÉ

Interslice force functions for computing active and passive earth force

A new lack-of-fit test for quantile regression models using logistic regression

Introduction 1. Partie II : Cosmologie

A Stochastic Approach For The Range Evaluation

A Petrov-Galerkin reduced basis approximation of the Stokes equation in parametrized geometries

Invitation to a Family Reunion

Reachability Analysis of Hybrid Systems with Linear Continuous Dynamics

THE OLYMPIAD CORNER No. 305

Expression of Dirichlet boundary conditions in terms of the strain tensor in linearized elasticity

Bandit feedback in Classification and Multi-objective Optimization

Basic building blocks for a triple-double intermediate format

cedram Article mis en ligne dans le cadre du Centre de diffusion des revues académiques de mathématiques

Pierre Gaillard. To cite this version: HAL Id: tel

Doctorat ParisTech. TELECOM ParisTech. Analyse de stratégies bayésiennes et fréquentistes pour l allocation séquentielle de ressources

Study of Localization for Disordered Systems on Quantum Graphs

Analyse de stabilité de systèmes à coefficients dépendant du retard

Numerical analysis for an interpretation of the pressuremeter test in cohesive soil

Mémoire. l habilitation à diriger des recherches. Aspects quantitatifs de l inconditionnalité. déposé en vue de l obtention de. par.

Thèse de Doctorat. Donata Puplinskaitė. Agrégation de processus autorégressifs et de champs aléatoires de variance finie ou infinie

Théorèmes asymptotiques pour les équations de Boltzmann et de Landau

Cartesian closed 2-categories and rewriting

Rapid Bridge Deck Condition Assessment Using Three- Dimensional Visualization of Impact Echo Data

N d ordre : UNIVERSITÉ DE LILLE 1- SCIENCES ET TECHNOLOGIES École doctorale: Sciences Pour l Ingénieur n o 72 Laboratoire Paul Painlevé

THÈSE DE DOCTORAT. Nikola Stanković. Sujet :

Sediment yield and availability for two reservoir drainage basins in central Luzon, Philippines

Transcription:

Apprentissage automatique Méthodes à noyaux - motivation

MODÉLISATION NON-LINÉAIRE prédicteur non-linéaire On a vu plusieurs algorithmes qui produisent des modèles linéaires (régression ou classification) Malheureusement, pas tous les problèmes peuvent être résolus avec un modèle linéaire Par contre, on peut obtenir des modèles non-linéaires à l aide de fonctions de base non-linéaires 2

FONCTION DE BASE fonctions de base polynomiales Exemple : fonctions de bases polynomiales (1D) j(x) =x j t 1 0 RAPPEL M = 9 On retrouve alors la régression polynomiale 1 0 x 1 3

APPROCHE PROBABILISTE DISCRIMINANTE 1 fonctions de bases 1 RAPPEL 2 fonctions de bases gaussiennes j x 2 φ 2 { (x µ j) 2 } 0 µ 2 0.5 exp 2s 2 1 µ 1 0 1 0 1 x 1 espace représenté par x 0 0.5 1 φ 1 espace représenté par 4

MÉTHODES À NOYAUX noyau, méthodes à noyaux On va maintenant voir une façon très simple d introduire des fonctions de bases non-linéaires dans un modèle linéaire les fonctions de bases vont être définies implicitement (pas besoin de représenter explicitement en mémoire (x)!) on aura seulement à calculer une comparaison k(x, x 0 ) entre les entrées x et x 0 La fonction k(x, x 0 ) est appelée un noyau les algorithmes utilisant un noyau sont appelées méthodes à noyaux 5

Apprentissage automatique Méthodes à noyaux - représentation duale (régression)

RÉGRESSION régression Revenons au problème de la régression (régularisée) : { } J(w) = 1 2 N n=1 { w T φ(x n ) t n } 2 + λ 2 wt w Si on fixe le gradient par rapport à w à 0, on observe que w = 1 λ N n=1 { w T φ(x n ) t n } φ(xn ) = N n=1 a n φ(x n ) = Φ T a 7

} RÉGRESSION régression Donc, la solution w est simplement une somme pondérée des entrées x n dans l ensemble d entraînement w = N n=1 a n φ(x n ) = Φ T a where Φ is the desi a = (a 1,..., a N ) T où chaque a n est la contribution de (x n ) à la solution Idée : plutôt qu optimiser par rapport à w, optimisons par rapport à a 8

{ } REPRÉSENTATION DUALE représentation duale Si on remplace w par obtient Φ T a, on peut démontrer qu on J(a) = 1 2 at ΦΦ T ΦΦ T a a T ΦΦ T t + 1 2 tt t + λ 2 at ΦΦ T a C est la représentation duale de J(w) 9

REPRÉSENTATION DUALE représentation duale, matrice de Gram Si on remplace w par obtient Φ T a, on peut démontrer qu on J(a) = 1 2 at KKa a T Kt + 1 2 tt t + λ 2 at Ka. On va aussi noter φ(x n ) T φ(x m ) = k(x n, x m ) La matrice de Gram K contient tous les K nm ) = k(x n, x m ) 10 de l ensemble d entraînement

REPRÉSENTATION DUALE représentation duale Si on remplace w par obtient Φ T a, on peut démontrer qu on J(a) = 1 2 at KKa a T Kt + 1 2 tt t + λ 2 at Ka. En fixant à 0 les gradients par rapport à a, on obtient a = (K + λi N ) 1 t. 11

REPRÉSENTATION DUALE représentation duale Pour faire une prédiction : y(x) = w T φ(x) = a T Φφ(x) = k(x) T (K + λi N ) 1 t où k(x) =(k(x 1, x),...,k(x N, x)) T 12

RÉGRESSION À NOYAU régression à noyau Algorithme de régression à noyau entraînement : prédiction : a = (K + λi N ) 1 t. y(x) =k(x) T a Pour exécuter cet algorithme, on a seulement besoin de calculer les produits scalaires du noyau φ(x n ) T φ(x m ) = k(x n, x m ) 13 Par contre, on doit toujours avoir accès aux entrées de l ensemble d entraînement

Apprentissage automatique Méthodes à noyaux - astuce du noyau

RÉGRESSION À NOYAU régression à noyau Algorithme de régression à noyau entraînement : prédiction : a = (K + λi N ) 1 t. y(x) =k(x) T a Pour exécuter cet algorithme, on a seulement besoin de calculer les produits scalaires du noyau φ(x n ) T φ(x m ) = k(x n, x m ) 15

ASTUCE DU NOYAU astuce du noyau L astuce du noyau vise à exploiter cet observation peut-on définir des noyaux tels que calculer k(x n,x m ) est plus efficace que de calculer (x n ) et (x m ) et ensuite faire (x n ) T (x m )? 16

ASTUCE DU NOYAU astuce du noyau La réponse est oui! Exemple (D=2): 3 multiplications et 1 addition k(x, z) = ( x T z ) 2 = (x1 z 1 + x 2 z 2 ) 2 = x 2 1z 2 1 + 2x 1 z 1 x 2 z 2 + x 2 2z 2 2 = (x 2 1, 2x 1 x 2, x 2 2)(z 2 1, 2z 1 z 2, z 2 2) T = φ(x) T φ(z). 2 fois 4 multiplications (construire (x) et (z) ) suivi de 3 multiplications et 2 additions (produit scalaire) 17

( ) NOYAU POLYNOMIAL noyau polynomial Une forme générale est le noyau polynomial k(x, x ) = ( x T x + c ) M bining kernels we see that où c est une constante >0 On peut montrer que le (x) implicite contient tous les produits possibles entre au plus M éléments de x (x) =(c 0, 18

( ) NOYAU POLYNOMIAL noyau polynomial Une forme générale est le noyau polynomial k(x, x ) = ( x T x + c ) M bining kernels we see that où c est une constante >0 On peut montrer que le (x) implicite contient tous les produits possibles entre au plus M éléments de x (x) =(c 0, c 1 x 1,...,c D x D, 18

( ) NOYAU POLYNOMIAL noyau polynomial Une forme générale est le noyau polynomial k(x, x ) = ( x T x + c ) M bining kernels we see that où c est une constante >0 On peut montrer que le (x) implicite contient tous les produits possibles entre au plus M éléments de x (x) =(c 0, c 1 x 1,...,c D x D, c 11 x 2 1,c 12 x 1 x 2,..., 18

( ) NOYAU POLYNOMIAL noyau polynomial Une forme générale est le noyau polynomial k(x, x ) = ( x T x + c ) M bining kernels we see that où c est une constante >0 On peut montrer que le (x) implicite contient tous les produits possibles entre au plus M éléments de x (x) =(c 0, c 1 x 1,...,c D x D, c 11 x 2 1,c 12 x 1 x 2,..., c 111 x 3 1,c 112 x 2 1x 2,c 123 x 1 x 2 x 3,...) 18

MALÉDICTION DE LA DIMENSIONNALITÉ nombre de paramètres Notre modèle de régression aura plus de paramètres RAPPEL D D D D D D y(x, w) = w 0 + w i x i + w ij x i x j + w ijk x i x j x k. i=1 i=1 j=1 i=1 j=1 k=1 pour M = 3,on a maintenant 1 + D + D 2 + D 3 paramètres De façon générale, augmente selon O(D M )! pour D=100, M=3, on a déjà plus d un million de paramètres 19

MALÉDICTION DE LA DIMENSIONNALITÉ nombre de paramètres Notre modèle de régression aura plus de paramètres RAPPEL D D D D D D y(x, w) = w 0 + w i x i + w ij x i x j + w ijk x i x j x k. i=1 i=1 j=1 i=1 j=1 k=1 pour M = 3,on a maintenant 1 + D + D 2 + D 3 paramètres De façon générale, augmente selon O(D M )! pour D=100, M=3, on a déjà plus d un million de paramètres 19

MALÉDICTION DE LA DIMENSIONNALITÉ nombre de paramètres Notre modèle de régression aura plus de paramètres RAPPEL D D D D D D y(x, w) = w 0 + w i x i + w ij x i x j + w ijk x i x j x k. i=1 i=1 j=1 i=1 j=1 k=1 pour M = 3,on a maintenant 1 + D + D 2 + D 3 paramètres On n a plus à apprendre un De façon générale, paramètre augmente w explicitement selon O(D M )!! pour D=100, M=3, on a déjà plus d un million de paramètres 19

MALÉDICTION DE LA DIMENSIONNALITÉ La difficulté à bien généraliser peut donc potentiellement augmenter exponentiellement avec la dimensionnalité D des entrées malédiction de la dimensionnalité RAPPEL Cette observation est appelée la malédiction de la dimensionnalité 20 Nécessite le design de modèles / algorithmes appropriés pour chaque problème on cherche des modèles / algorithmes qui vont bien exploiter les données à notre disposition

MALÉDICTION DE LA DIMENSIONNALITÉ La difficulté à bien généraliser peut donc potentiellement augmenter exponentiellement avec la dimensionnalité D des entrées malédiction de la dimensionnalité RAPPEL Cette observation est appelée la malédiction de la On risque quand même d être victime de sur-apprentissage, dimensionnalité lorsque la dimensionnalité (implicite) de augmente (x) 20 Nécessite le design de modèles / algorithmes appropriés pour chaque problème on cherche des modèles / algorithmes qui vont bien exploiter les données à notre disposition

Apprentissage automatique Méthodes à noyaux - construction de noyaux

ASTUCE DU NOYAU astuce du noyau L astuce du noyau vise à exploiter cet observation peut-on définir des noyaux tels que calculer k(x n,x m ) est plus efficace que de calculer (x n ) et (x m ) et ensuite faire (x n ) T (x m )? 22

( ) NOYAU POLYNOMIAL noyau polynomial Une forme générale est le noyau polynomial k(x, x ) = ( x T x + c ) M bining kernels we see that où c est une constante >0 On peut montrer que le (x) implicite contient tous les produits possibles entre au plus M éléments de x (x) =(c 0, c 1 x 1,...,c D x D, c 11 x 2 1,c 12 x 1 x 2,..., c 111 x 3 1,c 112 x 2 1x 2,c 123 x 1 x 2 x 3,...) 23

CONSTRUCTION DE NOYAUX construction de noyau Règles pour construire de nouveaux noyaux valides k(x, x ) = ck 1 (x, x ) k(x, x ) = f(x)k 1 (x, x )f(x ) k(x, x ) = q (k 1 (x, x )) k(x, x ) = exp (k 1 (x, x )) k(x, x ) = k 1 (x, x ) + k 2 (x, x ) (x x ) = (x x ) (x x ) où c>0, f(x) est une fonction, q(a) est un polynôme avec coefficients positifs, A est une matrice définie positive et x=(x a,x b ). Les noyaux k 1, k 2, k 3, k a et k b doivent être valides. k(x, x ) = k 1 (x, x )k 2 (x, x ) k(x, x ) = k 3 (φ(x), φ(x )) k(x, x ) = x T Ax k(x, x ) = k a (x a, x a) + k b (x b, x b) k(x, x ) = k a (x a, x a)k b (x b, x b) ( ) ( ) 24

CONSTRUCTION DE NOYAUX construction de noyau Exemple : ck 1 (x, x 0 ) où c>0 ck 1 (x, x 0 )=c 1 (x) T 1 (x 0 ) = p c 1 (x) T p c 1 (x 0 ) = (x) T (x 0 ) 25

NOYAU GAUSSIEN noyau gaussien Un noyau souvent utilisé est le noyau gaussien : k(x, x ) = exp ( x x 2 /2σ 2) Est valide puisque : x x 2 = x T x + (x ) T x 2x T x ( ) ( ) ( k(x, x ) = exp ( x T x/2σ 2) exp ( x T x /σ 2) exp ( (x ) T x /2σ 2) 26

NOYAU GAUSSIEN noyau gaussien Un noyau souvent utilisé est le noyau gaussien : k(x, x ) = exp ( x x 2 /2σ 2) k(x, x ) = ck 1 (x, x ) (x x ) = (x) (x x ) (x ) Est valide puisque : x x 2 = x T x + (x ) T x 2x T x { ( ) ( ) ( k(x, x ) = exp ( x T x/2σ 2) exp ( x T x /σ 2) exp ( (x ) T x /2σ 2) 26

NOYAU GAUSSIEN noyau gaussien Un noyau souvent utilisé est le noyau gaussien : k(x, x ) = exp ( x x 2 /2σ 2) Est valide puisque : k(x, x ) = ck 1 (x, x ) k(x, x ) = exp (x)(k ) (x 1 (x, x )) ) (x x ) = (x x ) + (x x x x 2 = x T x + (x ) T x 2x T x { { ( ) ( ) ( k(x, x ) = exp ( x T x/2σ 2) exp ( x T x /σ 2) exp ( (x ) T x /2σ 2) 26

NOYAU GAUSSIEN noyau gaussien Un noyau souvent utilisé est le noyau gaussien : k(x, x ) = exp ( x x 2 /2σ 2) Est valide puisque : x x 2 = x T x + (x ) T x 2x T x k(x, x ) = ck 1 (x, x ) k(x, x ) = exp (x)(k ) (x 1 (x, x )) ) k(x, x ) = f(x)k x ) + x 1 (x, x )f(x ) (x x ) = ( (x x )) { { ( ) ( ) ( k(x, x ) = exp ( x T x/2σ 2) exp ( x T x /σ 2) exp ( (x ) T x /2σ 2) 26

NOYAU GAUSSIEN noyau gaussien Un noyau souvent utilisé est le noyau gaussien : k(x, x ) = exp ( x x 2 /2σ 2) On peut même montrer que le taille infinie! (x) est un vecteur de 27

CONSTRUCTION DE NOYAUX construction de noyaux On peut également définir des noyaux pour des entrées qui ne sont pas des vecteurs x de taille fixe chaînes de caractères ensembles de vecteurs etc. Noyau de Fisher : un paradigme pour dériver de nouveaux noyaux à partir de modèles probabilistes génératifs voir fin de la section 6.2 28

Apprentissage automatique Méthodes à noyaux - résumé

RÉGRESSION À NOYAU résumé de la régression à noyau Modèle : y(x) = w T φ(x) = k(x) T a = p(t x, )=N(t y(x), 1 ) NX n=1 a n k(x, x n ) Entraînement : a = (K + λi N ) 1 t. Hyper-paramètres : λ et ceux dans le noyau k(x,x n ) c et M pour le noyau polynomial 2 pour le noyau gaussien 30 Prédiction : y(x)

( ) CAPACITÉ ET NOYAU lien entre capacité et noyau( ) Modèle : y(x) = w T φ(x) = k(x) T a = NX n=1 a n k(x, x n ) Noyau polynomial k(x, x ( ) = x T x ) M + c bining kernels we see that plus M est grand, plus le modèle a de la capacité Noyau gaussien k(x, x ( ) = exp x x 2 /2σ 2) 2 plus est petit, plus le modèle a de la capacité 31