AI Master Degree/AI and Data engineering

    Chap 5. Decision Making 의사결정 - Policy and Value Iteration Part2.

    Chap 5. Decision Making 의사결정 - Policy and Value Iteration Part2.

    Policy Iteration란? Policy(정책)를 업데이트하는 과정이다. Iterative Policy Evaluation을 말하며, Bellman Expectation Equation으로 지금가지고 있는 Policy를 이용해 V를 업데이트 해준 후에 다시 Evaluation을 반복한다. * 단, 업데이트 후에 Improvement 로 넘어가는 것이 아니라, V파이에 수렴할때까지 계속 Evaluate 해준다. 즉, value가 바뀌지 않을때까지 Evaluate해야 한다. 그 결과, Policy파이가 주어졌을때, V파이에 수렴할때까지 Iterative하게 value를 evaluation 시키는 것이다. Policy Iteration : Policy Evaluation(Prediction) x ?+ P..

    Chap 5. Decision Making 의사결정 - Policy and Value Iteration Part1.

    Chap 5. Decision Making 의사결정 - Policy and Value Iteration Part1.

    Policy and Value Iteratino을 알기 위해선 아래 내용을 숙지할 필요가 있다. Markov Decision Process 란? Total Reward를 최대로 만들고, 이때의 Optimal Policy(최적 정책)을 찾는 방법. Model을 알고 있는 것이 중요하며, Model은 Transition Probability, Reward Function들 인데, 보통 Transition Probability를 의미한다. 즉, 모든 상환을 다 알고 있다. Bellman Expectation Equation(벨만 기대 방정식)이란? Value Function과 Bellman Equation은 강화학습에서 매우 중요한 수식이다. 상태가치함수에서 가치함수는 정책을 고려하지 않았으나, Agent는 ..

    Chap 5. Decision Making 의사결정

    Chap 5. Decision Making 의사결정

    Rainforce Learning 강화학습 Enviornment -> State | Reward -> Agent | Policy -> Action -> Environment (경험 + 지식) > 판단 > 정책 : 적설히 설계된 보상체계를 활용하여 Agent가 긍정적인 행동을 할 수 있도록 행동을 제어한다. Markov Chain 마르코프 연쇄 마르코프 연쇄는 마르코프 속성을 가지고 있는 시스템의 상태 변화를 말한다. 과거 상태와는 독립적으로 현재 상태에 의해서면 결정되어야 한다. S : 상태(State)의 집합 P : 상태 전이 매트릭스 에피소드 : 일련의 연속된 상태 변화 환경 : 전체 에피소드의 모음 마르코프 연쇄를 계산하기 위해서는 매트릭스 행렬의 내적의 곱을 계산하면 된다. 마르코프 속성 : 과거..

    Chap 4-2. Parameter learning & Introduction to Simple Decision Making

    Chap 4-2. Parameter learning & Introduction to Simple Decision Making

    Maximum Likelihood Estimate : 최대 우도법 모수적인 데이터 밀도 추정 방법으로, 파라미터 (쎄타)로 구성된 하나의 확률밀도함수를 이용한다. 그 확률밀도함에서 관측된 표본 데이터 집합을 On 이라 할때, 이 표본들에서 모수를 추정하는 방법이다. 어떤 모수가 주어졌을 때, 원하는 값들이 나올 가능도를 최대로 만드는 모수를 선택해야한다. Likelihood Fuction 데이터 샘플에서 후보 분포에 대한 높이 (확률 밀도값 P(~))을 계산해서 모두 곱하여 사용한다. 이를 통해, 지금 얻은 데이터가 해당 분포로부터 나왔을 가능도를 계산할 수 있다. P(Oi | 쎄타)가 높이라고 볼 수 있다. Log-likelihood Function 보통은 Log-likelihood Function을 ..

    Chap 4. Parameter learning & Introduction to Simple Decision Making

    Chap 4. Parameter learning & Introduction to Simple Decision Making

    Outline Bayesian Filter Model Learning Maximum Likelihood Estimation Bayesian Estimation Bayes Theorem : 두 확률변수의 사전확률(Prior)과 사후확률(Posterior)사이의 관계를 나타낸다. 또한, 사전확률과 사후확률을 토대로 사건의 확률을 추론하는 과정이다. P(A | B) : B의 값이 주어진 경우, A의 사후확률은 P(B | A) A가 주어진 B의 조건부 확률 X P(A) 사전 확률 / B의 사전확률이다. 즉, B라는 사건이 일어났을때 A라는 사건이 일어날 조건부확률이다. 여기서 핵심은 P(A | B) A가 일어났을 때의 확률을 계산할때 이를 거꾸로 뒤집어 B가 일어났을때의 확률과 같다. 이를 계산하는 문제를 가져..