Robustness in GANs and in Black-box Optimization

Size: px

Start display at page:

Download "Robustness in GANs and in Black-box Optimization"

Brendan Haynes
5 years ago
Views:

1 Robustness in GANs and in Black-box Optimization Stefanie Jegelka MIT CSAIL joint work with Zhi Xu, Chengtao Li, Ilija Bogunovic, Jonathan Scarlett and Volkan Cevher

2 Robustness in ML noise Generator Critic One unit is enough! Robustness in GANs Representational Power in Deep Learning Robust Optimization, Generalization, Discrete & Nonconvex Optimization Robust Black-Box Optimization

3 Generative Adversarial Networks CGAN, trained with BN (b) DCGAN, trained without BN G(z) random z noise attack: with probability p<.5, discriator s output is manipulated generator doesn t know which feedback is honest Generator Discriator D(x), D(G(z)) N-S, trained without BN (d) DAN-S, trained without BN x AN, DAN-S and DAN-S trained on CelebA dataset. Both DAN-S and DAN-S ch more diversity in generated samples compared to DCGAN. real data max V (G, D) G D discriator: generator: max V (G, D) D V (G, A(D)) G

4 Generative Adversarial Networks DCGAN, trained with BN (b) DCGAN, trained without BN G(z) random noise z attack: with probability p<.5, discriator s output is manipulated generator doesn t know which feedback is honest Generator Discriator D(x), D(G(z)) DAN-S, trained without BN (d) DAN-S, trained without BN x CGAN, DAN-S and DAN-S trained on CelebA dataset. Both DAN-S and DAN-S much more diversity in generated samples compared to DCGAN. real data A(D(x)) = ( D(x) D(x) with probability p otherwise. Theorem: If adversary does a simple sign flip, then standard GAN no longer learns the right distribution.

5 <latexit sha_base64="b4hlebhr7tetaehbb4ygfyyuiv8=">aaab6hicbvbns8naejurq/qh69lbbbuleqmeif48ta9oq9lsj+azsbsboqs+gu8efdeqz/jm//gbzudtj4yelww8y8ibfcg9f9dgobmvbo8xdt7+wefr+fikrenumwyxwmsqgcngktsgw4edhofnaoedoljdzvpkhspjypzpqgh9gr5cfnfipgq7kfbfqlkdwizetcurodmpf/whmgilyyjqfpcxpgzvyyzgbnsp9wyudahi+xzkmmes8wh87ihvwgjiyvlwniqv9kdfi6kum6imrfe9ebif4vnegnngzpaylwy4kufmtozfkyfxyiyywkkz4vzwwszuuwzsniubgrf68jppxu9t+oryvzyoipzbovycbzwowzoaumej7hfd6cr+ffexc+lqfj585ht9wpn8ayvgm6g==</latexit> <latexit sha_base64="b4hlebhr7tetaehbb4ygfyyuiv8=">aaab6hicbvbns8naejurq/qh69lbbbuleqmeif48ta9oq9lsj+azsbsboqs+gu8efdeqz/jm//gbzudtj4yelww8y8ibfcg9f9dgobmvbo8xdt7+wefr+fikrenumwyxwmsqgcngktsgw4edhofnaoedoljdzvpkhspjypzpqgh9gr5cfnfipgq7kfbfqlkdwizetcurodmpf/whmgilyyjqfpcxpgzvyyzgbnsp9wyudahi+xzkmmes8wh87ihvwgjiyvlwniqv9kdfi6kum6imrfe9ebif4vnegnngzpaylwy4kufmtozfkyfxyiyywkkz4vzwwszuuwzsniubgrf68jppxu9t+oryvzyoipzbovycbzwowzoaumej7hfd6cr+ffexc+lqfj585ht9wpn8ayvgm6g==</latexit> <latexit sha_base64="b4hlebhr7tetaehbb4ygfyyuiv8=">aaab6hicbvbns8naejurq/qh69lbbbuleqmeif48ta9oq9lsj+azsbsboqs+gu8efdeqz/jm//gbzudtj4yelww8y8ibfcg9f9dgobmvbo8xdt7+wefr+fikrenumwyxwmsqgcngktsgw4edhofnaoedoljdzvpkhspjypzpqgh9gr5cfnfipgq7kfbfqlkdwizetcurodmpf/whmgilyyjqfpcxpgzvyyzgbnsp9wyudahi+xzkmmes8wh87ihvwgjiyvlwniqv9kdfi6kum6imrfe9ebif4vnegnngzpaylwy4kufmtozfkyfxyiyywkkz4vzwwszuuwzsniubgrf68jppxu9t+oryvzyoipzbovycbzwowzoaumej7hfd6cr+ffexc+lqfj585ht9wpn8ayvgm6g==</latexit> What makes GANs more robust? random noise z Generator x Discriator G max D V (G, D). Model properties: transformation function G max D E x P data [f(d(x))] + E z Pz [f( D(G(z)))] score for real data inverse score for fake data If: is strictly increasing and differentiable symmetry: f(a) = f( a) for a [, ] then model is robust f<latexit sha_base64="b4hlebhr7tetaehbb4ygfyyuiv8=">aaab6hicbvbns8naejurq/qh69lbbbuleqmeif48ta9oq9lsj+azsbsboqs+gu8efdeqz/jm//gbzudtj4yelww8y8ibfcg9f9dgobmvbo8xdt7+wefr+fikrenumwyxwmsqgcngktsgw4edhofnaoedoljdzvpkhspjypzpqgh9gr5cfnfipgq7kfbfqlkdwizetcurodmpf/whmgilyyjqfpcxpgzvyyzgbnsp9wyudahi+xzkmmes8wh87ihvwgjiyvlwniqv9kdfi6kum6imrfe9ebif4vnegnngzpaylwy4kufmtozfkyfxyiyywkkz4vzwwszuuwzsniubgrf68jppxu9t+oryvzyoipzbovycbzwowzoaumej7hfd6cr+ffexc+lqfj585ht9wpn8ayvgm6g==</latexit>

6 What makes GANs more robust? random noise z Generator x Discriator G max D V (G, D). Model properties: symmetric transformation function. Training Algorithm: weight clipping (regularization) helps robustness Generalization includes Wasserstein GANs!

7 tha similar the MNIST analysis data, with using thea MNIST CNN fordata, bothusing G anda CNN D. Without for both G an ygan help is robustness, still morethe brittle GAN also istowards still more thebrittle choice also of towards algorithmthe choic the rization). theory Extending to include Empirical both the theory aspects, to include model Results and bothalgorithm, aspects, model is an and al e of future research. MNIST GAN stable GAN bility = =. Error Probability Error Probability =. = Error Probability = =. Error Pro Piece_GAN Piece_GAN ple results Figure on5: MNIST Example (noresults clipping). on MNIST (no clipping).

8 Empirical Results. Error probability Error Probability =.=. GAN Linear Tanh Erf Piece Piece % success Success Rate stable GANs. GAN % failure no clipping None... strict clipping Weight Clipping (Regularization) helps robustness Stable GANs are more robust to clipping threshold

Black-Box Optimization Goal: optimize a complex function that is only accessible via expensive queries f (x) Automatic Gait

imization imize f ( ) () RD of an objective function f ( ) with respect to the parameters.

objective function. Therefore, the use of Bayesian optimization well suits this challenging optimization task.

In Bayesian optimization, for each iteration (i.e., evaluation of the objective function f ), a GP model 7!

9 Black-Box Optimization Goal: optimize a complex function that is only accessible via expensive queries f (x) Automatic Gait Optimization The search for appropriate parameters of a controller can be formulated as an optimization problem, such as the imization imize f ( ) () RD of an objective function f ( ) with respect to the parameters. In the context of gait optimization, this optimization problem is characterized as a global optimization of a zeroorder stochastic objective function. Therefore, the use of Bayesian optimization well suits this challenging optimization task. Bayesian Optimization Bayesian optimization is an iterative model-based global optimization method [7, 5,, ]. In Bayesian optimization, for each iteration (i.e., evaluation of the objective function f ), a GP model 7! f ( ) is learned from the data set T = {, f ( )} composed Figure : The bio-inspired dynamical by the past parameters and the corresponding measure- bipedal walker Fox used for the experments f ( ) of the objective function. This model is used

10 Black-Box Optimization Sequential Optimization: build internal model of f(x) In each time step: Select a query point x Observe (noisy) f(x) update model often: Gaussian Process select queries: uncertainty and expected function value, e.g. maximizing ucb(x) = ˆf(x)+ / (x)

11 Robust Optimization with GPs Observed f(x) may be (adversarially) perturbed: Robotics: simulations vs. real data Parameter tuning: estimation with limited data Time-varying functions Problem: max x D δ Δ ϵ (x) f(x + δ) (x) f(x + ) Δ ϵ (x) = {x x : x D and d(x, x ) ϵ} standard methods can fail! suboptimal decision!

12 <latexit sha_base64="ps+pz/uv6oop4gi+75b54u/pec=">aaab6icbzbnswmxeizn6etxwpxojf8frrdbjyvhcrywqvkwbmmsxzfyos/+cfw+kepupefpfmlz7nyxag/vzjcznqlsoj75pbxjc6u8xdnzds/qb4etwsgczbljgj6utucikb6faytup4vrfkj9g49tz/fgjgyss/yctliekdrwibam4socab9a8+v+xgqvggjqukjzr7bgnlfnfijlwg/gphjkkjjkovszylbeyhvotqu8vtmm9nziz5wxinbjnjk5+sip8raiypcp6i4ssumflfrzthfbmqqczcswh8wzjjiqefkiaxnkccokdpc7uryibrkmvtcseeyyevqvuihji+v6wboo4ynacpaoavxba+6gcsgmijneiutkvrvswgtecxmmfyr9/kdcosooa==</latexit> <latexit sha_base64="ps+pz/uv6oop4gi+75b54u/pec=">aaab6icbzbnswmxeizn6etxwpxojf8frrdbjyvhcrywqvkwbmmsxzfyos/+cfw+kepupefpfmlz7nyxag/vzjcznqlsoj75pbxjc6u8xdnzds/qb4etwsgczbljgj6utucikb6faytup4vrfkj9g49tz/fgjgyss/yctliekdrwibam4socab9a8+v+xgqvggjqukjzr7bgnlfnfijlwg/gphjkkjjkovszylbeyhvotqu8vtmm9nziz5wxinbjnjk5+sip8raiypcp6i4ssumflfrzthfbmqqczcswh8wzjjiqefkiaxnkccokdpc7uryibrkmvtcseeyyevqvuihji+v6wboo4ynacpaoavxba+6gcsgmijneiutkvrvswgtecxmmfyr9/kdcosooa==</latexit> <latexit sha_base64="ps+pz/uv6oop4gi+75b54u/pec=">aaab6icbzbnswmxeizn6etxwpxojf8frrdbjyvhcrywqvkwbmmsxzfyos/+cfw+kepupefpfmlz7nyxag/vzjcznqlsoj75pbxjc6u8xdnzds/qb4etwsgczbljgj6utucikb6faytup4vrfkj9g49tz/fgjgyss/yctliekdrwibam4socab9a8+v+xgqvggjqukjzr7bgnlfnfijlwg/gphjkkjjkovszylbeyhvotqu8vtmm9nziz5wxinbjnjk5+sip8raiypcp6i4ssumflfrzthfbmqqczcswh8wzjjiqefkiaxnkccokdpc7uryibrkmvtcseeyyevqvuihji+v6wboo4ynacpaoavxba+6gcsgmijneiutkvrvswgtecxmmfyr9/kdcosooa==</latexit> <latexit sha_base64="ps+pz/uv6oop4gi+75b54u/pec=">aaab6icbzbnswmxeizn6etxwpxojf8frrdbjyvhcrywqvkwbmmsxzfyos/+cfw+kepupefpfmlz7nyxag/vzjcznqlsoj75pbxjc6u8xdnzds/qb4etwsgczbljgj6utucikb6faytup4vrfkj9g49tz/fgjgyss/yctliekdrwibam4socab9a8+v+xgqvggjqukjzr7bgnlfnfijlwg/gphjkkjjkovszylbeyhvotqu8vtmm9nziz5wxinbjnjk5+sip8raiypcp6i4ssumflfrzthfbmqqczcswh8wzjjiqefkiaxnkccokdpc7uryibrkmvtcseeyyevqvuihji+v6wboo4ynacpaoavxba+6gcsgmijneiutkvrvswgtecxmmfyr9/kdcosooa==</latexit> StableOpt Algorithm In every round: select select observe x t = argmax x D δ t = arg δ Δ ϵ ( x t ) δ Δ ϵ (x) lcb t ( x t + δ) ucb t (x + δ) and update with upper confidence bound lower confidence bound y t = f( x t +δ t ) + z t {( x t +δ t, y t )} Theorem (RBF kernel): sample complexity: O* ( η (log η )p ) steps for -suboptimality whp closely matching lower bound algorithm generalizes to many other settings!

13 <latexit sha_base64="jbremvom7kmupdv9uznwdlxn=">aaab8icbzbns8naeiyn9avwr6phl8eiecqjchqsepfywdzce8pkuxbjzhdykul/hxymixvzvwbtsctpwfhydzpjznqlmor55pbxjc6u8xdnzds/qb4etusaczbljgj7kroubsktiq5juc4wjyr+j8es/vjetrgjeqbjysmyhombeoyvhbeqpoarpxwqvwvlol7skfgekntsvb+cfskymctieop+l5kyy6abjn8wgkywnkyxzyrkwfmtdhpr956p5zp+8oemfinfu/p7imtzmekemyamexazpyvsocbmqquzccuwiwazdclxzwg4fae5izmxgewle6vlrqirkypykpwl7+8culum/5/rlwucnikmmjnmi5+hafdbidjrsaqqrp8apvtua8oo/ox6k5bqzx/bhzucpbdr7a==</latexit> <latexit sha_base64="jbremvom7kmupdv9uznwdlxn=">aaab8icbzbns8naeiyn9avwr6phl8eiecqjchqsepfywdzce8pkuxbjzhdykul/hxymixvzvwbtsctpwfhydzpjznqlmor55pbxjc6u8xdnzds/qb4etusaczbljgj7kroubsktiq5juc4wjyr+j8es/vjetrgjeqbjysmyhombeoyvhbeqpoarpxwqvwvlol7skfgekntsvb+cfskymctieop+l5kyy6abjn8wgkywnkyxzyrkwfmtdhpr956p5zp+8oemfinfu/p7imtzmekemyamexazpyvsocbmqquzccuwiwazdclxzwg4fae5izmxgewle6vlrqirkypykpwl7+8culum/5/rlwucnikmmjnmi5+hafdbidjrsaqqrp8apvtua8oo/ox6k5bqzx/bhzucpbdr7a==</latexit> <latexit sha_base64="jbremvom7kmupdv9uznwdlxn=">aaab8icbzbns8naeiyn9avwr6phl8eiecqjchqsepfywdzce8pkuxbjzhdykul/hxymixvzvwbtsctpwfhydzpjznqlmor55pbxjc6u8xdnzds/qb4etusaczbljgj7kroubsktiq5juc4wjyr+j8es/vjetrgjeqbjysmyhombeoyvhbeqpoarpxwqvwvlol7skfgekntsvb+cfskymctieop+l5kyy6abjn8wgkywnkyxzyrkwfmtdhpr956p5zp+8oemfinfu/p7imtzmekemyamexazpyvsocbmqquzccuwiwazdclxzwg4fae5izmxgewle6vlrqirkypykpwl7+8culum/5/rlwucnikmmjnmi5+hafdbidjrsaqqrp8apvtua8oo/ox6k5bqzx/bhzucpbdr7a==</latexit> Variations Robustness to unknown parameters f : D Θ R is smooth wrt input x and parameters max x D θ Θ f(x, θ) Robust estimation estimate of true parameters <latexit sha_base64="jbremvom7kmupdv9uznwdlxn=">aaab8icbzbns8naeiyn9avwr6phl8eiecqjchqsepfywdzce8pkuxbjzhdykul/hxymixvzvwbtsctpwfhydzpjznqlmor55pbxjc6u8xdnzds/qb4etusaczbljgj7kroubsktiq5juc4wjyr+j8es/vjetrgjeqbjysmyhombeoyvhbeqpoarpxwqvwvlol7skfgekntsvb+cfskymctieop+l5kyy6abjn8wgkywnkyxzyrkwfmtdhpr956p5zp+8oemfinfu/p7imtzmekemyamexazpyvsocbmqquzccuwiwazdclxzwg4fae5izmxgewle6vlrqirkypykpwl7+8culum/5/rlwucnikmmjnmi5+hafdbidjrsaqqrp8apvtua8oo/ox6k5bqzx/bhzucpbdr7a==</latexit> max x D δ θ Δ ϵ ( θ) f(x, θ + δ θ ) Robust group identification input space partitioned into groups group with highest worst-case value G = {G,, G k } max G G x G f(x)

Empirical Results 5 4 4 5 6 [Bertsimas et al.

MaxiMin-GP-UCB Stable-GP-UCB Stable-GP-Random 4 y

14 Empirical Results [Bertsimas et al. ] x x 5 4 t 6 8 StableOpt Robot Pushing 4 Avg. Min. Obj. Val. -regret b e t t e r StableOpt GP-UCB MaxiMin-GP-UCB Stable-GP-UCB Stable-GP-Random 4 y 5 y Benchmark GP-UCB MaxiMin-GP-UCB Stable-GP-UCB Stable-GP-Random StableOpt b e t t e r

15 Robustness in ML noise Generator Critic One unit is enough! Robustness in GANs (Z. Xu, C. Li, S. Jegelka, arxiv) Representational Power in Deep Learning Robust Optimization, Generalization, Discrete & Nonconvex Optimization Robust Black-Box - - Optimization (I. Bogunovic, J. Scarlett, S. Jegelka, V. Cevher NIPS 8)

MMD GAN 1 Fisher GAN 2

MMD GAN 1 Fisher GAN 2 MMD GAN 1 Fisher GAN 1 Chun-Liang Li, Wei-Cheng Chang, Yu Cheng, Yiming Yang, and Barnabás Póczos (CMU, IBM Research) Youssef Mroueh, and Tom Sercu (IBM Research) Presented by Rui-Yi(Roy) Zhang Decemeber