EE-559 Deep learning 3.5. Gradient descent. François Fleuret Mon Feb 18 13:34:11 UTC 2019

Size: px

Start display at page:

Download "EE-559 Deep learning 3.5. Gradient descent. François Fleuret Mon Feb 18 13:34:11 UTC 2019"

Daniel Harrell
5 years ago
Views:

1 EE-559 Deep learning 3.5. Gradient descent François Fleuret Mon Feb 18 13:34:11 UTC 2019

2 We saw that training consists of finding the model parameters minimizing an empirical risk or loss, for instance the mean-squared error (MSE) (w, b) = 1 (f (x n; w, b) y n) 2. N n Other losses are more fitting for classification, certain regression problems, or density estimation. We will come back to this. François Fleuret EE-559 Deep learning / 3.5. Gradient descent 1 / 13

3 We saw that training consists of finding the model parameters minimizing an empirical risk or loss, for instance the mean-squared error (MSE) (w, b) = 1 (f (x n; w, b) y n) 2. N n Other losses are more fitting for classification, certain regression problems, or density estimation. We will come back to this. So far we minimized the loss either with an analytic solution for the MSE, or with ad hoc recipes for the empirical error rate (k-nn and perceptron). François Fleuret EE-559 Deep learning / 3.5. Gradient descent 1 / 13

4 There is generally no ad hoc method. The logistic regression for instance leads to the loss P w (Y = 1 X = x) = σ(w x + b), with σ(x) = e x (w, b) = n log σ(y n(w x n + b)) which cannot be minimized analytically. François Fleuret EE-559 Deep learning / 3.5. Gradient descent 2 / 13

5 There is generally no ad hoc method. The logistic regression for instance leads to the loss P w (Y = 1 X = x) = σ(w x + b), with σ(x) = e x (w, b) = n log σ(y n(w x n + b)) which cannot be minimized analytically. The general minimization method used in such a case is the gradient descent. François Fleuret EE-559 Deep learning / 3.5. Gradient descent 2 / 13

6 Given a functional f : R D R x f (x 1,..., x D ), its gradient is the mapping f : R D R D ( ) f f x (x),..., (x). x 1 x D François Fleuret EE-559 Deep learning / 3.5. Gradient descent 3 / 13

7 To minimize a functional : R D R the gradient descent uses local linear information to iteratively move toward a (local) minimum. François Fleuret EE-559 Deep learning / 3.5. Gradient descent 4 / 13

8 To minimize a functional : R D R the gradient descent uses local linear information to iteratively move toward a (local) minimum. For w 0 R D, consider an approximation of around w 0 w0 (w) = (w 0 ) + (w 0 ) T (w w 0 ) + 1 2η w w 0 2. Note that the chosen quadratic term does not depend on. François Fleuret EE-559 Deep learning / 3.5. Gradient descent 4 / 13

9 To minimize a functional : R D R the gradient descent uses local linear information to iteratively move toward a (local) minimum. For w 0 R D, consider an approximation of around w 0 w0 (w) = (w 0 ) + (w 0 ) T (w w 0 ) + 1 2η w w 0 2. Note that the chosen quadratic term does not depend on. We have which leads to w0 (w) = (w 0 ) + 1 η (w w 0), argmin w w0 (w) = w 0 η (w 0 ). François Fleuret EE-559 Deep learning / 3.5. Gradient descent 4 / 13

10 The resulting iterative rule, which goes to the minimum of the approximation at the current location, takes the form: w t+1 = w t η (w t), which corresponds intuitively to following the steepest descent. This [most of the time] eventually ends up in a local minimum, and the choices of w 0 and η are important. François Fleuret EE-559 Deep learning / 3.5. Gradient descent 5 / 13

11 η = w 0 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 6 / 13

12 η = w 1 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 6 / 13

13 η = w 2 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 6 / 13

14 η = w 3 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 6 / 13

15 η = w 4 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 6 / 13

16 η = w 5 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 6 / 13

17 η = w 6 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 6 / 13

18 η = w 7 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 6 / 13

19 η = w 8 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 6 / 13

20 η = w 9 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 6 / 13

21 η = w 10 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 6 / 13

22 η = w 11 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 6 / 13

23 η = w 0 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 7 / 13

24 η = w 1 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 7 / 13

25 η = w 2 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 7 / 13

26 η = w 3 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 7 / 13

27 η = w 4 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 7 / 13

28 η = w 5 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 7 / 13

29 η = w 6 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 7 / 13

30 η = w 7 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 7 / 13

31 η = w 8 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 7 / 13

32 η = w 9 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 7 / 13

33 η = w 10 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 7 / 13

34 η = w 11 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 7 / 13

35 η = 0.5 w 0 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 8 / 13

36 η = 0.5 w 1 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 8 / 13

37 η = 0.5 w 2 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 8 / 13

38 η = 0.5 w 3 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 8 / 13

39 η = 0.5 w 4 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 8 / 13

40 η = 0.5 w 5 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 8 / 13

41 η = 0.5 w 6 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 8 / 13

42 η = 0.5 w 7 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 8 / 13

43 η = 0.5 w 8 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 8 / 13

44 η = 0.5 w 9 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 8 / 13

45 η = 0.5 w 10 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 8 / 13

46 η = 0.5 w 11 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 8 / 13

47 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 9 / 13

48 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 9 / 13

49 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 9 / 13

50 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 9 / 13

51 We saw that the minimum of the logistic regression loss (w, b) = n log σ(y n(w x n + b)) does not have an analytic form. François Fleuret EE-559 Deep learning / 3.5. Gradient descent 10 / 13

52 We can derive d, b = n w d = n y n σ( y n(w x n + b)), }{{} u n x n,d y n σ( y n(w x n + b)), }{{} v n,d François Fleuret EE-559 Deep learning / 3.5. Gradient descent 11 / 13

53 We can derive d, b = n w d = n y n σ( y n(w x n + b)), }{{} u n x n,d y n σ( y n(w x n + b)), }{{} v n,d which can be implemented as def gradient(x, y, w, b): u = y * ( - y * (x.mv(w) + b)).sigmoid_() v = x * u.view(-1, 1) # Broadcasting return - v.sum(0), - u.sum() François Fleuret EE-559 Deep learning / 3.5. Gradient descent 11 / 13

54 We can derive d, b = n w d = n y n σ( y n(w x n + b)), }{{} u n x n,d y n σ( y n(w x n + b)), }{{} v n,d which can be implemented as def gradient(x, y, w, b): u = y * ( - y * (x.mv(w) + b)).sigmoid_() v = x * u.view(-1, 1) # Broadcasting return - v.sum(0), - u.sum() and the gradient descent as w, b = torch.empty(x.size(1)).normal_(), 0 eta = 1e-1 for k in range(nb_iterations): dw, db = gradient(x, y, w, b) w -= eta * dw b -= eta * db François Fleuret EE-559 Deep learning / 3.5. Gradient descent 11 / 13

55 oss Nb. of steps François Fleuret EE-559 Deep learning / 3.5. Gradient descent 12 / 13

56 With 100 training points and η = n = 0 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 13 / 13

57 With 100 training points and η = n = 10 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 13 / 13

58 With 100 training points and η = n = 10 2 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 13 / 13

59 With 100 training points and η = n = 10 3 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 13 / 13

60 With 100 training points and η = n = 10 4 François Fleuret EE-559 Deep learning / 3.5. Gradient descent 13 / 13

61 DA François Fleuret EE-559 Deep learning / 3.5. Gradient descent 13 / 13

62 The end

ECS171: Machine Learning

ECS171: Machine Learning Lecture 4: Optimization (LFD 3.3, SGD) Cho-Jui Hsieh UC Davis Jan 22, 2018 Gradient descent Optimization Goal: find the minimizer of a function min f (w) w For now we assume f