Janusz Marecki Zvi Topol

Size: px

Start display at page:

Download "Janusz Marecki Zvi Topol"

Merilyn Bates
5 years ago
Views:

1 Welcome

3 Janusz Marecki

4 Janusz Marecki Zvi Topol

5 Janusz Marecki Zvi Topol Milind Tambe

7 Solving MDPs with Continuous Time

8 Why do I care about continuous time?

9 30 min

10 At the airport

11 10:45 12:00 Start 10:15

12 10:45 10:46 10:47 10:48 10:49 10:50 10:51

14 Action durations = Uncertainty

15 Challenging planning problems

16 Existing work = Numerical solutions

17 This work = Analytical solutions

18 Huge speedups

19 Outline

20 Domain Model CPH Solver Results Summary

21 Mars rover exploration

22 Mars

23 Landing site

24 Sites of Base interest

25 Lander Basebase

26 Base Lander Basebase

27 Base Exploration Base sites

28 Site1 Base Site2 Site3 Exploration Base sites

29 Site1 Base Site2 Site3 Rover Base location

30 Actions

31 Site1 Base Site2 Site3 Move to Base next Site

32 Site1 Base Site2 Site3 Move to Base next Site

33 Site1 Base Site2 Site3 Return Base to Base

34 Site1 Base Site2 Site3 Return Base to Base

35 Action outcomes = uncertain

36 State B State A State C

37 State B State A State C

38 State B? State A State C?

39 Action durations = uncertain

40 State A State B

41 State A State B?

42 Rewards

43 Explore Site Return to Base

44 Achieved upon action completion

45 Finally

47 Deadline

48 Domain Model CPH Solver Results Summary

49 Action duration p(t) Deterministic Stochastic and Discrete Stochastic and Continuous t

50 Action duration p(t) Deterministic Stochastic and Discrete Stochastic and Continuous t

51 Action duration p(t) Deterministic Stochastic and Discrete Stochastic and Continuous t

52 Deadlines

53 Action Durations Deterministic Stochastic discrete Stochastic continuous Deadline MDP Time Dependent MDP? No Deadline MDP MDP Semi MDP

54 Action Durations Deterministic Stochastic discrete Stochastic continuous Deadline MDP Time Dependent MDP? No Deadline MDP MDP Semi MDP

55 Action Durations Deterministic Stochastic discrete Stochastic continuous Deadline MDP Time Dependent MDP? No Deadline MDP MDP Semi MDP

56 Unrealistic

58 Action Durations Deterministic Stochastic discrete Stochastic continuous Deadline MDP Time Dependent MDP? No Deadline MDP MDP Semi MDP

59 No quality guarantees

60 Number of states blows up

62 Action Durations Deterministic Stochastic discrete Stochastic continuous Deadline MDP Time Dependent MDP Time Dependent MDP No Deadline MDP MDP Semi MDP

63 Deadline Stochastic continuous

64 Deadline Stochastic continuous

65 Stochastic continuous + Deadline Difficult Problem

66 Why?

67 Policy depends on State s Time-to-deadline t

68 Policy value at s,t

69 V(s)(t) Policy value at s,t

70 V(s)(t) Policy value at s,t V(s) Function over t

71 V(s) V(s)(t) t

72 How to find V(s)?

73 Bellman update

74 Suppose s precedes s

75 s s

76 We assume V(s) V(s)(t) t

77 We derive V(s ) V(s )(t) t

78 We derive V(s ) V(s )(t) ? t

79 Action duration p(t)

80 Q: How to derive V(s )(t)? A: Convolution

82 In s time-to-deadline = t 0 t

83 In s time-to-deadline = t Action may consume t p(t ) 0 t' t

84 In s time-to-deadline = t Action may consume t In s time-to-deadline = t -t p(t ) V(s)(t-t ) 0 t' t

85 p(t ) V(s )(t-t )

86 t 0 p(t ) V(s )(t-t ) dt

87 Convolution V(s)(t) = t 0 p(t ) V(s )(t-t ) dt

88 Convolution V(s ) = p * V(s)

89 Computing convolutions Numerical methods Approximation Error guarantees

90 Examples

91 Outcome of convolution p(t) V(s)(t) * t t

92 Numerical methods p(t) p(t) p(t) p(t) t t t Discrete Constant Linear... t

93 Numerical methods Better approximation p(t) p(t) p(t) p(t) t t t Discrete Constant Linear... t

95 Better approximation Better approximation

96 Better approximation Better approximation p*v(s) function class

97 Discrete Constant Linear Quadratic Discrete Constant Linear Quadratic

98 Discrete Constant Linear Quadratic Discrete Discrete Constant Linear Quadratic

99 Discrete Constant Linear Quadratic Discrete Discrete Constant Constant Constant Linear Quadratic

100 Discrete Constant Linear Quadratic Discrete Discrete Constant Linear Constant Constant Linear Linear Linear Quadratic

101 Discrete Constant Linear Quadratic Discrete Discrete Constant Linear Quadratic Constant Constant Linear Quadratic Linear Linear Quadratic Quadratic Quadratic

102 Discrete Constant Linear Quadratic Discrete Discrete Constant Linear Quadratic Constant Constant Linear Quadratic Cubic Linear Linear Quadratic Cubic Quadratic Quadratic Cubic

103 Discrete Constant Linear Quadratic Discrete Discrete Constant Linear Quadratic Constant Constant Linear Quadratic Cubic Linear Linear Quadratic Cubic Quartic Quadratic Quadratic Cubic Quartic

104 Better approximation = Intractability

105 Better approximation = Intractability Representation & Dominancy

106 Existing work Discrete p(t) Repeated approximation

107 Discrete p(t)

108 Boyan 02

109 Discrete Constant Linear Quadratic Discrete Discrete Constant Linear Quadratic Constant Constant Linear Quadratic Cubic Linear Linear Quadratic Cubic Quartic Quadratic Quadratic Cubic Quartic

110 Discrete Constant Linear Quadratic Discrete Discrete Constant Linear Quadratic Constant Constant Linear Quadratic Cubic Linear Linear Quadratic Cubic Quartic Quadratic Quadratic Cubic Quartic V(s) and p*v(s) Linear

111 Repeated approximation

112 Lazy Approximation Li 05

113 Big improvement over Discrete p(t)

114 Discrete Constant Linear Quadratic Discrete Discrete Constant Linear Quadratic Constant Constant Linear Quadratic Cubic Linear Linear Quadratic Cubic Quartic Quadratic Quadratic Cubic Quartic

115 Discrete Constant Linear Quadratic Discrete Discrete Constant Linear Quadratic Constant Constant Linear Quadratic Cubic Linear Linear Quadratic Cubic Quartic Quadratic Quadratic Cubic Quartic V(s) Constant p*v(s) Linear

116 Discrete Constant Linear Quadratic Discrete Discrete Constant Linear Quadratic Constant Constant Linear Quadratic Cubic Linear Linear Quadratic Cubic Quartic Quadratic Quadratic Cubic Quartic p*v(s) Approximated to Constant

117 Fastest algorithm with quality guarantees

118 Better approximation = Intractability?

119 Not necessary -I get around this tradeoff -I am using a completely different solution technique -I am going in complete different direction

120 Domain Model CPH Solver Results Summary

121 Key Ideas 1. Phase-Type approximation of p(t) 2. Analytical convolution of p*v(s)

122 1 Phase-Type approximation of p(t)

123 MDP M Approximation MDP M

124 MDP M Approximation MDP M Action durations p(t) = λe λt

125 Suppose a transition in M s1 s2

126 Suppose a transition in M s1 s2 = p (t)

127 What if p (t) λe λt

128 Example

129 Normal Distribution p (t) Mean = 2 Variance = 1

130

131

132 p(t) = 1.37 e 1.37t

133 New transition time from s1 to s2?

134 Approximated p (t)

135 Comparison appr. p (t) p (t)

136 Comparison of p (t) appr. p (t) p (t)

137 Phase-Type approximation More phases = Better approximation Introduce self-transitions Planning horizon?

138 Planning horizon n* Policy less than ɛ away from optimal We have found n*

139 Proof in the paper

140 Rmax = maximum action reward = time to deadline

141 n log e λ 1 e λ ɛ R max (e λ 1)

142 1 Phase-Type approximation of p(t)

143 2 Analytical convolution of p * V(s)

144 Fast convolutions!

145 Action durations p(t) = λe λt

146 We proved 2 things

147 First

148 V(s)(t) t0 t time to deadline

149 V(s) is piecewise V(s)(t) t0 t1 t2 t V1(s) V2(s) V3(s)

150 Each piece Vi(s) = Gamma function

151 Gamma function V i (s)(t) = c s,i,1 e λt ( c s,i,2 + c s,i,3 (λt) c s,i,n+1 (λt) n 1 (n 1)! ). Stored in vector [cs,i,1, cs,i,2, cs,i,3,..., cs,i,n+1 ]

152 V(s) = Piecewise Gamma V(s) = t0 : [cs,0,1, cs,0,2, cs,0,3,..., cs,0,n+1 ] t1 : [cs,0,1, cs,0,2, cs,0,3,..., cs,0,n+1 ]... tm: [cs,m,1, cs,m,2, cs,m,3,..., cs,m,n+1 ]

153 Second

154 V(s ) = p*v(s) Derived analytically Simple vector operations

155 V(s ) t0 : [c s,0,1, c s,0,2,..., c s,0,n+1 ] t1 : [c s,0,1, c s,0,2,..., c s,0,n+1 ]... tm: [c s,m,1, c s,m,2,..., c s,m,n+1 ] V(s) t0 : [cs,0,1, cs,0,2,..., cs,0,n+1 ] t1 : [cs,0,1, cs,0,2,..., cs,0,n+1 ]... tm: [cs,m,1, cs,m,2,..., cs,m,n+1 ]

156 Proof in the paper

157 Algorithm

158 Significant speedups

159 Domain Model CPH Solver Results Summary

160 Experiment 1 Correctness of CPH

161 Experiment 2 Action durations - Exponential

162 Experiment 3 Action durations - Weibull

163 Experiment 4 Action durations - Normal

164 Speedups over all distributions

165 Domain Model CPH Solver Results Summary

166 Summary Continuous Time = Important Problem Phase Type approximation Analytical solution Error guarantees Speedups

167 Future work

168 Thank You!

169

170 Domain parameters State-to-State transitions are deterministic Action durations are p(t) = e t Time-to-deadline equals 4 time units Rewards are: 6 for returning to base and 4,2,1 for scanning Site1, Site2, Site3 respectively

A Fast Analytical Algorithm for MDPs with Continuous State Spaces

A Fast Analytical Algorithm for MDPs with Continuous State Spaces Janusz Marecki, Zvi Topol and Milind Tambe Computer Science Department University of Southern California Los Angeles, CA 989 {marecki,