Reinforcement Learning II. George Konidaris

Size: px

Start display at page:

Download "Reinforcement Learning II. George Konidaris"

Daisy Richardson
5 years ago
Views:

1 Reinforcement Learning II George Konidaris Fall 2018

2 Reinforcement Learning π : S A max R = t=0 t r t

3 MDPs Agent interacts with an environment At each time t: Receives sensor signal Executes action Transition: a t new sensor signal reward r t s t s t+1 Goal: find policy of discounted future rewards): [ π that maximizes expected return (sum max π E R = ] γ t r t t=0

4 Markov Decision Processes S A γ : set of states : set of actions : discount factor <S,A,γ,R,T > R : reward function R(s, a, s ) is the reward received taking action s and transitioning to state. a from state s T : transition function T (s s, a) is the probability of transitioning to state s taking action a in state s. after RL: one or both of T, R unknown.

5 The World

6 Real-Valued States What if the states are real-valued? Cannot use table to represent Q. States may never repeat: must generalize vs

7 RL Example: States: (θ 1, θ 1,θ 2, θ 2 ) (real-valued vector) Actions: +1, -1, 0 units of torque added to elbow Transition function: physics! Reward function: -1 for every step

8 <latexit sha1_base64="tlkfosn5optzqbnl1osll2fs1ui=">aaacwxicbzddattaeixxatk67p/bxpzmiak4ja1sklq3hddc9dkboglyjhitv/bi/rg7owyj9hb9jnihyg36bl0rljq/bxy+zplhlpoxsnqk41+d6mng5tnn3ee9fy9fvx7tf/vuznvkcthivll3kamxshoxiklkxjroom6vom8xx6v8/idwxlrznzalmgicgvlijhssrd9otttzfas+0lktv8tnpyfuiykg4dije5dougue06ep+v7s7ap+g6tdga9tileubj3uydmcduhymosp4oo4ftyeza0dttzj1r9op5zxwhjicr0fj3fjkxodsa5e00srl0rkc5yjcucdwvhj3zbqwe5wplbyf54han3/n2ru3i91hiy10tzfz1bmy9m4oulzpjamregyfnuoqbsqhvwjmjvocfllamiddh8fpkehnelvd67k1i4ic9+ezpl7ptyes8odjpdpx8hr13vhxfaebbmhs9gndss+srm2ypz9znfshv3p/i46utfq3y5gnfxofrujaosvf0yyig==</latexit> <latexit sha1_base64="tlkfosn5optzqbnl1osll2fs1ui=">aaacwxicbzddattaeixxatk67p/bxpzmiak4ja1sklq3hddc9dkboglyjhitv/bi/rg7owyj9hb9jnihyg36bl0rljq/bxy+zplhlpoxsnqk41+d6mng5tnn3ee9fy9fvx7tf/vuznvkcthivll3kamxshoxiklkxjroom6vom8xx6v8/idwxlrznzalmgicgvlijhssrd9otttzfas+0lktv8tnpyfuiykg4dije5dougue06ep+v7s7ap+g6tdga9tileubj3uydmcduhymosp4oo4ftyeza0dttzj1r9op5zxwhjicr0fj3fjkxodsa5e00srl0rkc5yjcucdwvhj3zbqwe5wplbyf54han3/n2ru3i91hiy10tzfz1bmy9m4oulzpjamregyfnuoqbsqhvwjmjvocfllamiddh8fpkehnelvd67k1i4ic9+ezpl7ptyes8odjpdpx8hr13vhxfaebbmhs9gndss+srm2ypz9znfshv3p/i46utfq3y5gnfxofrujaosvf0yyig==</latexit> <latexit sha1_base64="tlkfosn5optzqbnl1osll2fs1ui=">aaacwxicbzddattaeixxatk67p/bxpzmiak4ja1sklq3hddc9dkboglyjhitv/bi/rg7owyj9hb9jnihyg36bl0rljq/bxy+zplhlpoxsnqk41+d6mng5tnn3ee9fy9fvx7tf/vuznvkcthivll3kamxshoxiklkxjroom6vom8xx6v8/idwxlrznzalmgicgvlijhssrd9otttzfas+0lktv8tnpyfuiykg4dije5dougue06ep+v7s7ap+g6tdga9tileubj3uydmcduhymosp4oo4ftyeza0dttzj1r9op5zxwhjicr0fj3fjkxodsa5e00srl0rkc5yjcucdwvhj3zbqwe5wplbyf54han3/n2ru3i91hiy10tzfz1bmy9m4oulzpjamregyfnuoqbsqhvwjmjvocfllamiddh8fpkehnelvd67k1i4ic9+ezpl7ptyes8odjpdpx8hr13vhxfaebbmhs9gndss+srm2ypz9znfshv3p/i46utfq3y5gnfxofrujaosvf0yyig==</latexit> <latexit sha1_base64="tlkfosn5optzqbnl1osll2fs1ui=">aaacwxicbzddattaeixxatk67p/bxpzmiak4ja1sklq3hddc9dkboglyjhitv/bi/rg7owyj9hb9jnihyg36bl0rljq/bxy+zplhlpoxsnqk41+d6mng5tnn3ee9fy9fvx7tf/vuznvkcthivll3kamxshoxiklkxjroom6vom8xx6v8/idwxlrznzalmgicgvlijhssrd9otttzfas+0lktv8tnpyfuiykg4dije5dougue06ep+v7s7ap+g6tdga9tileubj3uydmcduhymosp4oo4ftyeza0dttzj1r9op5zxwhjicr0fj3fjkxodsa5e00srl0rkc5yjcucdwvhj3zbqwe5wplbyf54han3/n2ru3i91hiy10tzfz1bmy9m4oulzpjamregyfnuoqbsqhvwjmjvocfllamiddh8fpkehnelvd67k1i4ic9+ezpl7ptyes8odjpdpx8hr13vhxfaebbmhs9gndss+srm2ypz9znfshv3p/i46utfq3y5gnfxofrujaosvf0yyig==</latexit> Value Function Approximation Represent Q function: Q(s, a, w) :R n! R Samples of form: parameter vector (s i,a i,r i,s i+1,a i+1 ) Minimize summed squared TD error: nx min w i=0 (r i + Q(s i+1,a i+1,w) Q(s i,a i,w)) 2

9 Value Function Approximation Given a function approximator, compute the gradient and descend it. Which function approximator to use? Simplest thing you can do: Linear value function approximation. Use set of basis functions Q is a linear function of them: 1,..., n ˆQ(s, a) =w (s, a) = nx w j j (s, a) j=1

10 Function Approximation One choice of basis functions: Just use state variables directly: [1,x,y] What can be represented this way? Q y x

11 Polynomial Basis More powerful: Polynomials in state variables. 1st order: [1,x,y,xy] 2nd order: [1,x,y,xy,x 2,y 2,x 2 y, y 2 x, x 2 y 2 ] This is like a Taylor expansion. What can be represented?

12 Function Approximation How to get the terms of the Taylor series? Each term has an exponent: c i 2 [0,...,d] c(x, y, z) =x c 1 y c 2 z c 3 all combinations generates basis c(x, y, z) =x = x 1 y 0 z 0 c =[1, 0, 0] c(x, y, z) =xy 2 = x 1 y 2 z 0 c =[1, 2, 0] c(x, y, z) =x 2 z 4 = x 2 y 0 z 4 c =[2, 0, 4] c(x, y, z) =y 3 z 1 = x 0 y 3 z 1 c =[0, 3, 1]

13 Function Approximation Another: Fourier terms on state variables. [1,cos(πx),cos(πy), cos(π[x + y])] cos( c [x, y, z]) coefficient vector

14 <latexit sha1_base64="urphozkm+rhihkwjpmrbnxhn3t4=">aaacahicbzflaxrbfivroj5iflw6ehfzysdmea3dqyibqncnywhoepienldrqmfkqudtdtthapo/zptfipgd3grny+ekxij4oocutzhvvep6spkbtrr17/6dh9updh4/efrsefzi5am3teniwk2y7rxal5q0ykcsldivnebdkhfwzl4s/lnl4by05jvnkzhsodgylbwpshn8i9ps5feq+vrnjtxk2gsdmril9cdlevygm6dwcchcx5ygq6ay50n0l23fa66gd/abrjyccmhkpmrotqbuh4udpo4m+8ly4c6ka+iy9zzk8c9sbhmthsgu0pthmlq0atcr5eq0o1ntryv8hhmxdghqcz9qlp208c4oyyitc8cqlnv/bzsovz/riiq10ttf9hbi/7xhtewnusnnvzmwflworbwqhuxbmjzocflzamiddg8fpkwhnmi3bgwprj0rfr4nzas3e7glpwf7aebvh7vhn9cdbbo3bjf1wmoo2th7yk7yghf2zx6zpx3w+rxf0evozsoaddz3xrgnixb/autmucu=</latexit> <latexit sha1_base64="urphozkm+rhihkwjpmrbnxhn3t4=">aaacahicbzflaxrbfivroj5iflw6ehfzysdmea3dqyibqncnywhoepienldrqmfkqudtdtthapo/zptfipgd3grny+ekxij4oocutzhvvep6spkbtrr17/6dh9updh4/efrsefzi5am3teniwk2y7rxal5q0ykcsldivnebdkhfwzl4s/lnl4by05jvnkzhsodgylbwpshn8i9ps5feq+vrnjtxk2gsdmril9cdlevygm6dwcchcx5ygq6ay50n0l23fa66gd/abrjyccmhkpmrotqbuh4udpo4m+8ly4c6ka+iy9zzk8c9sbhmthsgu0pthmlq0atcr5eq0o1ntryv8hhmxdghqcz9qlp208c4oyyitc8cqlnv/bzsovz/riiq10ttf9hbi/7xhtewnusnnvzmwflworbwqhuxbmjzocflzamiddg8fpkwhnmi3bgwprj0rfr4nzas3e7glpwf7aebvh7vhn9cdbbo3bjf1wmoo2th7yk7yghf2zx6zpx3w+rxf0evozsoaddz3xrgnixb/autmucu=</latexit> <latexit sha1_base64="urphozkm+rhihkwjpmrbnxhn3t4=">aaacahicbzflaxrbfivroj5iflw6ehfzysdmea3dqyibqncnywhoepienldrqmfkqudtdtthapo/zptfipgd3grny+ekxij4oocutzhvvep6spkbtrr17/6dh9updh4/efrsefzi5am3teniwk2y7rxal5q0ykcsldivnebdkhfwzl4s/lnl4by05jvnkzhsodgylbwpshn8i9ps5feq+vrnjtxk2gsdmril9cdlevygm6dwcchcx5ygq6ay50n0l23fa66gd/abrjyccmhkpmrotqbuh4udpo4m+8ly4c6ka+iy9zzk8c9sbhmthsgu0pthmlq0atcr5eq0o1ntryv8hhmxdghqcz9qlp208c4oyyitc8cqlnv/bzsovz/riiq10ttf9hbi/7xhtewnusnnvzmwflworbwqhuxbmjzocflzamiddg8fpkwhnmi3bgwprj0rfr4nzas3e7glpwf7aebvh7vhn9cdbbo3bjf1wmoo2th7yk7yghf2zx6zpx3w+rxf0evozsoaddz3xrgnixb/autmucu=</latexit> <latexit sha1_base64="urphozkm+rhihkwjpmrbnxhn3t4=">aaacahicbzflaxrbfivroj5iflw6ehfzysdmea3dqyibqncnywhoepienldrqmfkqudtdtthapo/zptfipgd3grny+ekxij4oocutzhvvep6spkbtrr17/6dh9updh4/efrsefzi5am3teniwk2y7rxal5q0ykcsldivnebdkhfwzl4s/lnl4by05jvnkzhsodgylbwpshn8i9ps5feq+vrnjtxk2gsdmril9cdlevygm6dwcchcx5ygq6ay50n0l23fa66gd/abrjyccmhkpmrotqbuh4udpo4m+8ly4c6ka+iy9zzk8c9sbhmthsgu0pthmlq0atcr5eq0o1ntryv8hhmxdghqcz9qlp208c4oyyitc8cqlnv/bzsovz/riiq10ttf9hbi/7xhtewnusnnvzmwflworbwqhuxbmjzocflzamiddg8fpkwhnmi3bgwprj0rfr4nzas3e7glpwf7aebvh7vhn9cdbbo3bjf1wmoo2th7yk7yghf2zx6zpx3w+rxf0evozsoaddz3xrgnixb/autmucu=</latexit> Objective Function Minimization First, let s do stochastic gradient descent. As each data point (transition) comes in compute gradient of objective w.r.t. data point descend gradient a little bit ˆQ(s, a) =w (s, a) nx min w i=0 (r i + w (s i+1,a i+1 ) w (s i,a i )) 2

15 <latexit sha1_base64="bv18zouygfnxpknr08xsik+lcxy=">aaacgxicbzhbattaeizxsg9peojt3rt0zqgp2osafaojlejob3qzqp0elcng65w18uordkcxruiqt9knchmlrmxb66qdc9/+/wyz/juuslokgt+ev/xo8zon2892nr94+wq3t/f6wurkcdhiwmlzlaavshzirjkuucqnwdxr4jkzf2v9yxthrntft1qwypljrjcp5ehoinu/fnf9fqbyp2zgc3sxbvyhqlvmcjeskq3axllvzpjncaui+fqtrgumbzau2+edwdumaq5hsdegw1moitjyltfwjcfxf4241w+oglxbqwg76louzupebttvvmpfqvyhtemwkglsoyhjlwh2osqkevkcz2lssmbc2em9cqubj06zqqqnowxbsv13osbc2mweum4ckbp3vvb8nzeukd2d1liokxifxy9kkwwkou0eptiitmrpalmr7q3amztiyf3pxpze6zlhyhuxthg/h4dwcxwuov7xqx/2tctom71nh9iaheyenbhv7jynggd33q731nvnb/ldp/cp yrvlf/4dsb+9oq==</latexit> <latexit sha1_base64="bv18zouygfnxpknr08xsik+lcxy=">aaacgxicbzhbattaeizxsg9peojt3rt0zqgp2osafaojlejob3qzqp0elcng65w18uordkcxruiqt9knchmlrmxb66qdc9/+/wyz/juuslokgt+ev/xo8zon2892nr94+wq3t/f6wurkcdhiwmlzlaavshzirjkuucqnwdxr4jkzf2v9yxthrntft1qwypljrjcp5ehoinu/fnf9fqbyp2zgc3sxbvyhqlvmcjeskq3axllvzpjncaui+fqtrgumbzau2+edwdumaq5hsdegw1moitjyltfwjcfxf4241w+oglxbqwg76louzupebttvvmpfqvyhtemwkglsoyhjlwh2osqkevkcz2lssmbc2em9cqubj06zqqqnowxbsv13osbc2mweum4ckbp3vvb8nzeukd2d1liokxifxy9kkwwkou0eptiitmrpalmr7q3amztiyf3pxpze6zlhyhuxthg/h4dwcxwuov7xqx/2tctom71nh9iaheyenbhv7jynggd33q731nvnb/ldp/cp yrvlf/4dsb+9oq==</latexit> <latexit sha1_base64="bv18zouygfnxpknr08xsik+lcxy=">aaacgxicbzhbattaeizxsg9peojt3rt0zqgp2osafaojlejob3qzqp0elcng65w18uordkcxruiqt9knchmlrmxb66qdc9/+/wyz/juuslokgt+ev/xo8zon2892nr94+wq3t/f6wurkcdhiwmlzlaavshzirjkuucqnwdxr4jkzf2v9yxthrntft1qwypljrjcp5ehoinu/fnf9fqbyp2zgc3sxbvyhqlvmcjeskq3axllvzpjncaui+fqtrgumbzau2+edwdumaq5hsdegw1moitjyltfwjcfxf4241w+oglxbqwg76louzupebttvvmpfqvyhtemwkglsoyhjlwh2osqkevkcz2lssmbc2em9cqubj06zqqqnowxbsv13osbc2mweum4ckbp3vvb8nzeukd2d1liokxifxy9kkwwkou0eptiitmrpalmr7q3amztiyf3pxpze6zlhyhuxthg/h4dwcxwuov7xqx/2tctom71nh9iaheyenbhv7jynggd33q731nvnb/ldp/cp yrvlf/4dsb+9oq==</latexit> <latexit sha1_base64="bv18zouygfnxpknr08xsik+lcxy=">aaacgxicbzhbattaeizxsg9peojt3rt0zqgp2osafaojlejob3qzqp0elcng65w18uordkcxruiqt9knchmlrmxb66qdc9/+/wyz/juuslokgt+ev/xo8zon2892nr94+wq3t/f6wurkcdhiwmlzlaavshzirjkuucqnwdxr4jkzf2v9yxthrntft1qwypljrjcp5ehoinu/fnf9fqbyp2zgc3sxbvyhqlvmcjeskq3axllvzpjncaui+fqtrgumbzau2+edwdumaq5hsdegw1moitjyltfwjcfxf4241w+oglxbqwg76louzupebttvvmpfqvyhtemwkglsoyhjlwh2osqkevkcz2lssmbc2em9cqubj06zqqqnowxbsv13osbc2mweum4ckbp3vvb8nzeukd2d1liokxifxy9kkwwkou0eptiitmrpalmr7q3amztiyf3pxpze6zlhyhuxthg/h4dwcxwuov7xqx/2tctom71nh9iaheyenbhv7jynggd33q731nvnb/ldp/cp yrvlf/4dsb+9oq==</latexit> <latexit sha1_base64="1aqpcpgn7xrgenaumw7yl36aiuk=">aaacdxicbzhdaxnbfmvnt37u2mrurxeuriwhtu4wqv8krv98rgdaqjyudyezyzj5wgbugskyf6gppvsn+orkazstfwz+nhogo5wpkiu9jcmpkn65dfvo3d17e/f3dx487dx6foft7bgyckusuyrqcywngjakja4qj1axslwws49l//k7cf5a84uwlrhpnbhzso4uplwzp4wje4dm1zpv5gnsfjwqkvfsd1wu4rcycwqnmiemjy1bvk1lz4foydq+blxdh+ai5lsbutrlhzinj1pqr+t8218j73st42q1cbpsdxtzzs7zzq9sbhmthsgu0pthmlq0atcr5eq0e1ntryv8hhmxdghqcz9qvgw18dioyyitc8cqrnr/bzsovv/oiiq10trf95bi/7xhtex7usnnvzmwfl2orbwqhwxbmjzocfklamiddg8fpkwhnmkfbg0prj0rfr4nzatxe7gjfyfhaedpb7tnhzyd7bkn7dnrszs9y2fseztna8bzz2gn2o8oot/xs/hf/godjapnnsdsa+i3fwab5rnm</latexit> <latexit sha1_base64="1aqpcpgn7xrgenaumw7yl36aiuk=">aaacdxicbzhdaxnbfmvnt37u2mrurxeuriwhtu4wqv8krv98rgdaqjyudyezyzj5wgbugskyf6gppvsn+orkazstfwz+nhogo5wpkiu9jcmpkn65dfvo3d17e/f3dx487dx6foft7bgyckusuyrqcywngjakja4qj1axslwws49l//k7cf5a84uwlrhpnbhzso4uplwzp4wje4dm1zpv5gnsfjwqkvfsd1wu4rcycwqnmiemjy1bvk1lz4foydq+blxdh+ai5lsbutrlhzinj1pqr+t8218j73st42q1cbpsdxtzzs7zzq9sbhmthsgu0pthmlq0atcr5eq0e1ntryv8hhmxdghqcz9qvgw18dioyyitc8cqrnr/bzsovv/oiiq10trf95bi/7xhtex7usnnvzmwfl2orbwqhwxbmjzocfklamiddg8fpkwhnmkfbg0prj0rfr4nzatxe7gjfyfhaedpb7tnhzyd7bkn7dnrszs9y2fseztna8bzz2gn2o8oot/xs/hf/godjapnnsdsa+i3fwab5rnm</latexit> <latexit sha1_base64="1aqpcpgn7xrgenaumw7yl36aiuk=">aaacdxicbzhdaxnbfmvnt37u2mrurxeuriwhtu4wqv8krv98rgdaqjyudyezyzj5wgbugskyf6gppvsn+orkazstfwz+nhogo5wpkiu9jcmpkn65dfvo3d17e/f3dx487dx6foft7bgyckusuyrqcywngjakja4qj1axslwws49l//k7cf5a84uwlrhpnbhzso4uplwzp4wje4dm1zpv5gnsfjwqkvfsd1wu4rcycwqnmiemjy1bvk1lz4foydq+blxdh+ai5lsbutrlhzinj1pqr+t8218j73st42q1cbpsdxtzzs7zzq9sbhmthsgu0pthmlq0atcr5eq0e1ntryv8hhmxdghqcz9qvgw18dioyyitc8cqrnr/bzsovv/oiiq10trf95bi/7xhtex7usnnvzmwfl2orbwqhwxbmjzocfklamiddg8fpkwhnmkfbg0prj0rfr4nzatxe7gjfyfhaedpb7tnhzyd7bkn7dnrszs9y2fseztna8bzz2gn2o8oot/xs/hf/godjapnnsdsa+i3fwab5rnm</latexit> <latexit sha1_base64="1aqpcpgn7xrgenaumw7yl36aiuk=">aaacdxicbzhdaxnbfmvnt37u2mrurxeuriwhtu4wqv8krv98rgdaqjyudyezyzj5wgbugskyf6gppvsn+orkazstfwz+nhogo5wpkiu9jcmpkn65dfvo3d17e/f3dx487dx6foft7bgyckusuyrqcywngjakja4qj1axslwws49l//k7cf5a84uwlrhpnbhzso4uplwzp4wje4dm1zpv5gnsfjwqkvfsd1wu4rcycwqnmiemjy1bvk1lz4foydq+blxdh+ai5lsbutrlhzinj1pqr+t8218j73st42q1cbpsdxtzzs7zzq9sbhmthsgu0pthmlq0atcr5eq0e1ntryv8hhmxdghqcz9qvgw18dioyyitc8cqrnr/bzsovv/oiiq10trf95bi/7xhtex7usnnvzmwfl2orbwqhwxbmjzocfklamiddg8fpkwhnmkfbg0prj0rfr4nzatxe7gjfyfhaedpb7tnhzyd7bkn7dnrszs9y2fseztna8bzz2gn2o8oot/xs/hf/godjapnnsdsa+i3fwab5rnm</latexit> <latexit sha1_base64="ml8kp3bas5qyii3vkbyy49ey8ns=">aaacf3icbzfdaxnbfizn169aruyfvfdmybatwsnuedqloeinlxvmw8iky9njbdjmzmezowsiy174m/0f/rtophdtemdg4x3p4rzeysutpcxj7yi+dfvo3xt79/cfpdx49ljz5omzt7utciistu4iry+1kuwqfgl5utmjjtfypj9/wfnnp6xzypbfavnjscfpqqolkikudx7xwqfoeiwofor2l8ei+9ec97xjgvupas9l4fow1aoxktgepkvjebbaxcqs8gqmej60hqbteeag+gbvybhtofam6gn3ajqjplwez51umkjwbtch3ukxbes061zxirw1ksujjd6p0qsicbm6w2jz7vpaywrfhkdyflbei/24wufvwuugtkcwlrysyk3+o9gg8x5p8tbpkgb+urcs/+enaio+jbtvvjxjumwwfbugsrdkhsbksuf6gqcfu+fwedmm2vp4nz0tubvzwty3izn0eg434ex4kab+9q578nmb0r57yv6xhkvze3bcvrjtnmscxuuh0fporrzfb+jbngxa42g784ztvpzxdytpv3i=</latexit> <latexit sha1_base64="ml8kp3bas5qyii3vkbyy49ey8ns=">aaacf3icbzfdaxnbfizn169aruyfvfdmybatwsnuedqloeinlxvmw8iky9njbdjmzmezowsiy174m/0f/rtophdtemdg4x3p4rzeysutpcxj7yi+dfvo3xt79/cfpdx49ljz5omzt7utciistu4iry+1kuwqfgl5utmjjtfypj9/wfnnp6xzypbfavnjscfpqqolkikudx7xwqfoeiwofor2l8ei+9ec97xjgvupas9l4fow1aoxktgepkvjebbaxcqs8gqmej60hqbteeag+gbvybhtofam6gn3ajqjplwez51umkjwbtch3ukxbes061zxirw1ksujjd6p0qsicbm6w2jz7vpaywrfhkdyflbei/24wufvwuugtkcwlrysyk3+o9gg8x5p8tbpkgb+urcs/+enaio+jbtvvjxjumwwfbugsrdkhsbksuf6gqcfu+fwedmm2vp4nz0tubvzwty3izn0eg434ex4kab+9q578nmb0r57yv6xhkvze3bcvrjtnmscxuuh0fporrzfb+jbngxa42g784ztvpzxdytpv3i=</latexit> <latexit sha1_base64="ml8kp3bas5qyii3vkbyy49ey8ns=">aaacf3icbzfdaxnbfizn169aruyfvfdmybatwsnuedqloeinlxvmw8iky9njbdjmzmezowsiy174m/0f/rtophdtemdg4x3p4rzeysutpcxj7yi+dfvo3xt79/cfpdx49ljz5omzt7utciistu4iry+1kuwqfgl5utmjjtfypj9/wfnnp6xzypbfavnjscfpqqolkikudx7xwqfoeiwofor2l8ei+9ec97xjgvupas9l4fow1aoxktgepkvjebbaxcqs8gqmej60hqbteeag+gbvybhtofam6gn3ajqjplwez51umkjwbtch3ukxbes061zxirw1ksujjd6p0qsicbm6w2jz7vpaywrfhkdyflbei/24wufvwuugtkcwlrysyk3+o9gg8x5p8tbpkgb+urcs/+enaio+jbtvvjxjumwwfbugsrdkhsbksuf6gqcfu+fwedmm2vp4nz0tubvzwty3izn0eg434ex4kab+9q578nmb0r57yv6xhkvze3bcvrjtnmscxuuh0fporrzfb+jbngxa42g784ztvpzxdytpv3i=</latexit> <latexit sha1_base64="ml8kp3bas5qyii3vkbyy49ey8ns=">aaacf3icbzfdaxnbfizn169aruyfvfdmybatwsnuedqloeinlxvmw8iky9njbdjmzmezowsiy174m/0f/rtophdtemdg4x3p4rzeysutpcxj7yi+dfvo3xt79/cfpdx49ljz5omzt7utciistu4iry+1kuwqfgl5utmjjtfypj9/wfnnp6xzypbfavnjscfpqqolkikudx7xwqfoeiwofor2l8ei+9ec97xjgvupas9l4fow1aoxktgepkvjebbaxcqs8gqmej60hqbteeag+gbvybhtofam6gn3ajqjplwez51umkjwbtch3ukxbes061zxirw1ksujjd6p0qsicbm6w2jz7vpaywrfhkdyflbei/24wufvwuugtkcwlrysyk3+o9gg8x5p8tbpkgb+urcs/+enaio+jbtvvjxjumwwfbugsrdkhsbksuf6gqcfu+fwedmm2vp4nz0tubvzwty3izn0eg434ex4kab+9q578nmb0r57yv6xhkvze3bcvrjtnmscxuuh0fporrzfb+jbngxa42g784ztvpzxdytpv3i=</latexit> <latexit sha1_base64="ncbb1cg2m3ji28bcu57d1mszq7u=">aaacynicbzfnaxsxeibltduk7pedhnvdufowcrt2sya5hvasywp1yvcazvartvvlq0wajtgl/2d+qe+fxnttt5e/ohxsachd+84ww6u0vnjrgh5vbhuphj/zp3jafpb8xctxrfbhltov5wlajtj2mkitshziqjkugjzwoe6vue5nn1f+9y2wtpriky1kmdy4kwquozkxklywk5ftf2wioq/xblvgmepmm0mql1pzdukt+9hypeagegafyl7tifem7efs5wrkvbwcfptrjk1oebyucx5ctiuo29zl0vozz4zxwhtefto3isksxjvaklyjztouncirz3airh4l1mkn63uas3jnlqxyy/0rcnbqvxm1aucwovwdgmnq7nsr8x/eqkl8bfzloqxifhyzkk8ukifvtjbjkziphqfkvvpbgu/riif/attbumnmhklb+msi+zk8hkupx5hnlyed80/bja7ya/awdvnettk5u2cxbma4u2w/2g/2p/ejaabt4gjtgjs2m0dsp4i3dweftl8=</latexit> <latexit sha1_base64="ncbb1cg2m3ji28bcu57d1mszq7u=">aaacynicbzfnaxsxeibltduk7pedhnvdufowcrt2sya5hvasywp1yvcazvartvvlq0wajtgl/2d+qe+fxnttt5e/ohxsachd+84ww6u0vnjrgh5vbhuphj/zp3jafpb8xctxrfbhltov5wlajtj2mkitshziqjkugjzwoe6vue5nn1f+9y2wtpriky1kmdy4kwquozkxklywk5ftf2wioq/xblvgmepmm0mql1pzdukt+9hypeagegafyl7tifem7efs5wrkvbwcfptrjk1oebyucx5ctiuo29zl0vozz4zxwhtefto3isksxjvaklyjztouncirz3airh4l1mkn63uas3jnlqxyy/0rcnbqvxm1aucwovwdgmnq7nsr8x/eqkl8bfzloqxifhyzkk8ukifvtjbjkziphqfkvvpbgu/riif/attbumnmhklb+msi+zk8hkupx5hnlyed80/bja7ya/awdvnettk5u2cxbma4u2w/2g/2p/ejaabt4gjtgjs2m0dsp4i3dweftl8=</latexit> <latexit sha1_base64="ncbb1cg2m3ji28bcu57d1mszq7u=">aaacynicbzfnaxsxeibltduk7pedhnvdufowcrt2sya5hvasywp1yvcazvartvvlq0wajtgl/2d+qe+fxnttt5e/ohxsachd+84ww6u0vnjrgh5vbhuphj/zp3jafpb8xctxrfbhltov5wlajtj2mkitshziqjkugjzwoe6vue5nn1f+9y2wtpriky1kmdy4kwquozkxklywk5ftf2wioq/xblvgmepmm0mql1pzdukt+9hypeagegafyl7tifem7efs5wrkvbwcfptrjk1oebyucx5ctiuo29zl0vozz4zxwhtefto3isksxjvaklyjztouncirz3airh4l1mkn63uas3jnlqxyy/0rcnbqvxm1aucwovwdgmnq7nsr8x/eqkl8bfzloqxifhyzkk8ukifvtjbjkziphqfkvvpbgu/riif/attbumnmhklb+msi+zk8hkupx5hnlyed80/bja7ya/awdvnettk5u2cxbma4u2w/2g/2p/ejaabt4gjtgjs2m0dsp4i3dweftl8=</latexit> <latexit sha1_base64="ncbb1cg2m3ji28bcu57d1mszq7u=">aaacynicbzfnaxsxeibltduk7pedhnvdufowcrt2sya5hvasywp1yvcazvartvvlq0wajtgl/2d+qe+fxnttt5e/ohxsachd+84ww6u0vnjrgh5vbhuphj/zp3jafpb8xctxrfbhltov5wlajtj2mkitshziqjkugjzwoe6vue5nn1f+9y2wtpriky1kmdy4kwquozkxklywk5ftf2wioq/xblvgmepmm0mql1pzdukt+9hypeagegafyl7tifem7efs5wrkvbwcfptrjk1oebyucx5ctiuo29zl0vozz4zxwhtefto3isksxjvaklyjztouncirz3airh4l1mkn63uas3jnlqxyy/0rcnbqvxm1aucwovwdgmnq7nsr8x/eqkl8bfzloqxifhyzkk8ukifvtjbjkziphqfkvvpbgu/riif/attbumnmhklb+msi+zk8hkupx5hnlyed80/bja7ya/awdvnettk5u2cxbma4u2w/2g/2p/ejaabt4gjtgjs2m0dsp4i3dweftl8=</latexit> Gradient For each weight wj: (r i j w (s i+1,a i+1 ) w (s i,a i )) 2 = 2 i=0 nx i=0 (r i + w (s i+1,a i+1 ) w (s i,a i )) j (s i,a i ) so for time i the contribution for weight wj is: TD error w i+1 = w i + (r i + w (s i+1,a i+1 ) w (s i,a i )) j (s i,a i ) make a step: w j,i+1 = w j,i + (r i + w (s i+1,a i+1 ) w (s i,a i )) j (s i,a i ) (s i,a i ) vector

16 λ-gradient The same logic applies when using eligibility traces. w i+1 = w i + (s i,a i ) becomes w i+1 = w i + e where vectors e t = e t 1 + (s t,a t ) e 0 = 0 [Sutton and Barto, 1998]

17 Acrobot

18 Acrobot

19 <latexit sha1_base64="urphozkm+rhihkwjpmrbnxhn3t4=">aaacahicbzflaxrbfivroj5iflw6ehfzysdmea3dqyibqncnywhoepienldrqmfkqudtdtthapo/zptfipgd3grny+ekxij4oocutzhvvep6spkbtrr17/6dh9updh4/efrsefzi5am3teniwk2y7rxal5q0ykcsldivnebdkhfwzl4s/lnl4by05jvnkzhsodgylbwpshn8i9ps5feq+vrnjtxk2gsdmril9cdlevygm6dwcchcx5ygq6ay50n0l23fa66gd/abrjyccmhkpmrotqbuh4udpo4m+8ly4c6ka+iy9zzk8c9sbhmthsgu0pthmlq0atcr5eq0o1ntryv8hhmxdghqcz9qlp208c4oyyitc8cqlnv/bzsovz/riiq10ttf9hbi/7xhtewnusnnvzmwflworbwqhuxbmjzocflzamiddg8fpkwhnmi3bgwprj0rfr4nzas3e7glpwf7aebvh7vhn9cdbbo3bjf1wmoo2th7yk7yghf2zx6zpx3w+rxf0evozsoaddz3xrgnixb/autmucu=</latexit> <latexit sha1_base64="urphozkm+rhihkwjpmrbnxhn3t4=">aaacahicbzflaxrbfivroj5iflw6ehfzysdmea3dqyibqncnywhoepienldrqmfkqudtdtthapo/zptfipgd3grny+ekxij4oocutzhvvep6spkbtrr17/6dh9updh4/efrsefzi5am3teniwk2y7rxal5q0ykcsldivnebdkhfwzl4s/lnl4by05jvnkzhsodgylbwpshn8i9ps5feq+vrnjtxk2gsdmril9cdlevygm6dwcchcx5ygq6ay50n0l23fa66gd/abrjyccmhkpmrotqbuh4udpo4m+8ly4c6ka+iy9zzk8c9sbhmthsgu0pthmlq0atcr5eq0o1ntryv8hhmxdghqcz9qlp208c4oyyitc8cqlnv/bzsovz/riiq10ttf9hbi/7xhtewnusnnvzmwflworbwqhuxbmjzocflzamiddg8fpkwhnmi3bgwprj0rfr4nzas3e7glpwf7aebvh7vhn9cdbbo3bjf1wmoo2th7yk7yghf2zx6zpx3w+rxf0evozsoaddz3xrgnixb/autmucu=</latexit> <latexit sha1_base64="urphozkm+rhihkwjpmrbnxhn3t4=">aaacahicbzflaxrbfivroj5iflw6ehfzysdmea3dqyibqncnywhoepienldrqmfkqudtdtthapo/zptfipgd3grny+ekxij4oocutzhvvep6spkbtrr17/6dh9updh4/efrsefzi5am3teniwk2y7rxal5q0ykcsldivnebdkhfwzl4s/lnl4by05jvnkzhsodgylbwpshn8i9ps5feq+vrnjtxk2gsdmril9cdlevygm6dwcchcx5ygq6ay50n0l23fa66gd/abrjyccmhkpmrotqbuh4udpo4m+8ly4c6ka+iy9zzk8c9sbhmthsgu0pthmlq0atcr5eq0o1ntryv8hhmxdghqcz9qlp208c4oyyitc8cqlnv/bzsovz/riiq10ttf9hbi/7xhtewnusnnvzmwflworbwqhuxbmjzocflzamiddg8fpkwhnmi3bgwprj0rfr4nzas3e7glpwf7aebvh7vhn9cdbbo3bjf1wmoo2th7yk7yghf2zx6zpx3w+rxf0evozsoaddz3xrgnixb/autmucu=</latexit> <latexit sha1_base64="urphozkm+rhihkwjpmrbnxhn3t4=">aaacahicbzflaxrbfivroj5iflw6ehfzysdmea3dqyibqncnywhoepienldrqmfkqudtdtthapo/zptfipgd3grny+ekxij4oocutzhvvep6spkbtrr17/6dh9updh4/efrsefzi5am3teniwk2y7rxal5q0ykcsldivnebdkhfwzl4s/lnl4by05jvnkzhsodgylbwpshn8i9ps5feq+vrnjtxk2gsdmril9cdlevygm6dwcchcx5ygq6ay50n0l23fa66gd/abrjyccmhkpmrotqbuh4udpo4m+8ly4c6ka+iy9zzk8c9sbhmthsgu0pthmlq0atcr5eq0o1ntryv8hhmxdghqcz9qlp208c4oyyitc8cqlnv/bzsovz/riiq10ttf9hbi/7xhtewnusnnvzmwflworbwqhuxbmjzocflzamiddg8fpkwhnmi3bgwprj0rfr4nzas3e7glpwf7aebvh7vhn9cdbbo3bjf1wmoo2th7yk7yghf2zx6zpx3w+rxf0evozsoaddz3xrgnixb/autmucu=</latexit> Least-Squares TD Minimize: min w nx i=0 Error function has a bowl shape, so unique minimum. Just go right there! (r i + w (s i+1,a i+1 ) w (s i,a i )) 2

20 Least-Squares TD Derivative set to zero: nx (w (s i,a i ) r i w (s i+1,a i+1 )) (s i,a i ) T =0 w T i=1 n X i=1 (w (s i,a i ) w (s i+1,a i+1 )) T (s i,a i )= w = A 1 b nx i=1 r i T (s i,a i ) A = b = nx ( (s i,a i ) (s i+1,a i+1 )) T (s i,a i ) i=1 nx i=1 r i T (s i,a i ) [Bradtke and Barto, 1996]

21 LSTD(λ) Can derive the least-squares version of LSTD(λ) in this way. Try it at home! Write down the objective function Sample ri replaced by complex reward estimate. You will get a trace vector if you do some clever algebra. Trace vector is the same size as w. [Boyan, 1999]

Least-squares behavior sometimes unstable outside of data.

22 LSTD(λ) One inversion solves for w! But: Computationally expensive. A may not be invert-able. Least-squares behavior sometimes unstable outside of data. LSPI: Least Squares Policy Iteration Requires recomputing A over historical data. ai+1 changes with the policy [Lagoudakis and Parr, 2003]

23 Linear Methods Don t Scale Why not? They re complete. They have nice properties (bowl-shaped error). They are easy to use! How many basis functions in a complete nth order Taylor series of d variables? (n + 1) d

Function Approximation TD-Gammon: Tesauro (circa 1992-1995)

24 Function Approximation TD-Gammon: Tesauro (circa ) At or near best human level Learn to play Backgammon through self-play 1.5 million games Neural network function approximator TD(λ) Changed the way the best human players played.

25 Arcade Learning Environment [Bellemare 2013]

26 Deep Q-Networks [Mnih et al., 2015]

27 Atari [Mnih et al., 2015] video: Two Minute Papers

28 Atari [Mnih et al., 2015]

29 POLICY SEARCH

30 Policy Search Represent policy directly: (s, a, ) :R n, R m! [0, 1] Objective function: max parameter vector " # 1X E R = i r i i=0 Why?

31 Policy Search So far: improve policy via value function. Sometimes policies are simpler than value functions: Parametrized program π(s, a θ) Sometimes we wish to search in space of restricted policies. In such cases it makes sense to search directly in policy-space rather than trying to learn a value function.

32 Hill Climbing What if you can t differentiate? Sample-based optimization: Sample some values near your current best. Adjust your current best to the highest value.

33 Aibo Gait Optimization from Kohl and Stone, ICRA 2004.

34 PoWER and PI2 More recently, two closely related algorithms: Generate some sample values. Next is sum of prior samples weighted by reward. (Theodorou and Schaal 2010, Kober and Peters 2011)

35 Policy Search What if we can differentiate with respect to θ? Policy gradient methods. Compute and ascend R/ θ This is the gradient of return w.r.t policy parameters Policy gradient theorem: Therefore, one way is to learn Q and then ascend gradient. Q need only be defined using basis functions computed from θ.

36 Postural Recovery

37 Deep Policy Search [Levine et al., 2016]

38 Deep Policy Search [Levine et al., 2016]

39 Robotics [Levine et al., 2016]

40 Reinforcement Learning Very active area of current research, applications in: Robotics Operations Research Computer Games Theoretical Neuroscience AI The primary function of the brain is control.

Reinforcement Learning II. George Konidaris

Reinforcement Learning II. George Konidaris Reinforcement Learning II George Konidaris gdk@cs.brown.edu Fall 2017 Reinforcement Learning π : S A max R = t=0 t r t MDPs Agent interacts with an environment At each time t: Receives sensor signal Executes