Policy and Value Iteratino을 알기 위해선 아래 내용을 숙지할 필요가 있다.
Markov Decision Process 란?
Total Reward를 최대로 만들고, 이때의 Optimal Policy(최적 정책)을 찾는 방법.
Model을 알고 있는 것이 중요하며, Model은 Transition Probability, Reward Function들 인데, 보통
Transition Probability를 의미한다. 즉, 모든 상환을 다 알고 있다.
Bellman Expectation Equation(벨만 기대 방정식)이란?
Value Function과 Bellman Equation은 강화학습에서 매우 중요한 수식이다.
상태가치함수에서 가치함수는 정책을 고려하지 않았으나, Agent는 각 상태에서 Policy에 따라 행동을 해야한다.
이를 활용한 가치함수가 바로 벨만 기대 방정식이다.
* 가치함수란? 가치함수는 크게 State-value Function과 Actin-value Function 두가지로 구분된다.
? State-value Function이란 ? :
에이전트가 t시점, s상태에서 행동a를 선택해 리워드 r을 받는 것을 반복하며 받았던 보상들의 합은 아래와 같다.
여기에, 미래 보상보다 현재의 보상이 더 중요하기 때문에, 미래의 시점에 감가율을 곱한다.
이 식의 기대 값이 State-value Function으로 상태 S의 가치로 해석하고, 구해진 State-value Function을 통해 Agent가 다음으로 갈 수 있는 State들의 가치를 비교하여 이동한다.
t + 2시점부터의 보상은 감가율로 묶는다면, 아래 처럼 t + 1시점에서의 가치함수로 표현할 수 있다.
Bellman Expectation Equation 요약
위에서 설명한, State-value Function이 바로 벨만 기대 방정식이다.
다시말하자면, 현재 상태의 가치함수와 다음 상태의 가치함수 사이의 관계 방정식이다.
? Action-value Function = Q-Function 이란 ?
가치함수를 구하고 높은 가치를 가지는 상태로 이동하기 위한 Action을 한꺼번에 고려하는 것이다.
Q-function은 벨만 기대 방정식의 형태로 나타낼 수 있고 상태가치함수의 조건절에 행동이 고려된다.
Bellman Optimality Equation이란 (벨만 최적 방정식)?
앞서 언급한, Action-value Function(Q-function)과 최적 가치함수 (Optimal Value Function)은 가장 높은 보상을
얻게하는 가치 함수를 말한다. 이는, 최적 정책을 따라 갔을 때 받을 보상의 합이 최적 가치 함수이다.
또한 모든 정책에 대해 가장 큰 가치함수를 주는 정책을 최적 정책이라고한다.
결론 : Bellman Optimality Equation이란?
최적 가치함수를 사용하는 것이 Bellman Optibality Equation이라고 부르며, Q-Function에 대해서도 같은 방식으로 표현할 수 있다.
최적 가치 함수를 이용한 식
최적 Q 함수를 이용한 식
'AI Master Degree > AI and Data engineering' 카테고리의 다른 글
Chap 5. Decision Making 의사결정 - Policy and Value Iteration Part2. (0) | 2021.10.03 |
---|---|
Chap 5. Decision Making 의사결정 (0) | 2021.10.02 |
Chap 4-2. Parameter learning & Introduction to Simple Decision Making (0) | 2021.10.01 |
Chap 4. Parameter learning & Introduction to Simple Decision Making (0) | 2021.09.30 |