RL 에 대해서 여러가지 리뷰를 진행 하였고, 정리하였다.

 

일단 RL 쪽에 계속 발전하고있고, 기존방식의 문제점들을 보완하려는 노력을 하고있다.

RL 같은경우 아래와 같은 한계점들이 존재한다고한다.

1. State 가 무수히 많을 경우

2. 수렴성의 보장

3. 높은 분산값 

 

이런것들을 보완하기위해서 새로운방법들이 나오고있고, 현재 진행형 인 듯 하다.

강화학습을 나중에 더 깊게 파고들 수도있지만. 정확히말해서 그렇게 까지 잘 될것 인지에 대한 확신 이 없다.

적절한 보상을 주고 알아서 판단하게 만들려고하는게 강화학습인데 어디까지 더 생각을 해야될까? 라는 의문점을..

 

아무튼 키워드위주로 정리하겠다.

DQN - state 가 무수히 많을 경우 Q-Value 를 state마다 정의하지않고,  네트워크를 만들어서해결

 

Policy gradient -  DQN 과 이어서 생각해보았을때 seta 가 일종의 DQN 의 parameter이라 생각해보자, 기존에는 policy 가 Q_seta 에 의해 결정되었다면,  policy 자체를 seta 에 대한 직접적인 output 이라 생각한다.

그 다음 Q_pi 의 값이 늘어나는쪽으로 (gradient) 가게되면 전체적으로 value function 이 높아지는 쪽으로 수렴한다.

cost function 은 대체로 보상 들의 합의 기대값으로 놓고 그것을 최대로 하는 seta 를 찾는게 목표이다.

 

이 식으로 인해 grad(log_pi_seta(타우=경로) ) 의 기대값을 계산하면 costfunction 의 그라디언트를 구할 수 있는데,

이 값(grad(log_pi_seta(타우=경로) )은 기대값이기 때문에 MC - method 등으로 인해 경험적으로 구할 수 있다.

하는이유 : DQN 에 비해 좋은 수렴성

 

Baseline - 강화학습에서 미리 계산된 Value Function 을 사용 할 수도 있다.

A = Q - V 이렇게 놓고 A 를  수렴 시키기도한다. (분산이줄음)

 

 

Actor-Critic

위의 policy gradient 의 경우에는 MC 로 진행 햇을경우 높은 분산값을 갖는데 그값을 줄이기위해서

 

 

ACtor Q 를 수렴

Critic V 를 수렴 ( Q 의 action 선택을 비평)

Critic은 action value function을 approximate하는 w를 update하고

이때 Ciritic 도 network 를 사용하는 이유는 모든 경우를 trial 하지 않고 적은 sample 로도 기대값의 합을 알수 있게 되는 효과가 있다.

Actor는 policy를 approximate하는 seta를 update 따라서 w와 seta, 두 개의 weight parameter 를 갖는 강화학습 방법 

 

 

DDPG

NAtural Policy

TRPO PPO 등이 더있는데. 나중에 정리하겠다.

'Machine.Learning > reinforcement' 카테고리의 다른 글

Blackjack with DP vs Blackjack with MC  (0) 2020.12.08
Cliff exploration, Sarsa vs Q-Learning  (0) 2020.12.06
6장 TD  (0) 2020.11.30
5. Monte Carlo method (MC method)  (0) 2020.11.30
4. 4장 DP (Policy Evaluation and improvement)  (0) 2020.11.30

+ Recent posts