RL 에 대해서 여러가지 리뷰를 진행 하였고, 정리하였다.
일단 RL 쪽에 계속 발전하고있고, 기존방식의 문제점들을 보완하려는 노력을 하고있다.
RL 같은경우 아래와 같은 한계점들이 존재한다고한다.
1. State 가 무수히 많을 경우
2. 수렴성의 보장
3. 높은 분산값
이런것들을 보완하기위해서 새로운방법들이 나오고있고, 현재 진행형 인 듯 하다.
강화학습을 나중에 더 깊게 파고들 수도있지만. 정확히말해서 그렇게 까지 잘 될것 인지에 대한 확신 이 없다.
적절한 보상을 주고 알아서 판단하게 만들려고하는게 강화학습인데 어디까지 더 생각을 해야될까? 라는 의문점을..
아무튼 키워드위주로 정리하겠다.
DQN - state 가 무수히 많을 경우 Q-Value 를 state마다 정의하지않고, 네트워크를 만들어서해결
Policy gradient - DQN 과 이어서 생각해보았을때 seta 가 일종의 DQN 의 parameter이라 생각해보자, 기존에는 policy 가 Q_seta 에 의해 결정되었다면, policy 자체를 seta 에 대한 직접적인 output 이라 생각한다.
그 다음 Q_pi 의 값이 늘어나는쪽으로 (gradient) 가게되면 전체적으로 value function 이 높아지는 쪽으로 수렴한다.
cost function 은 대체로 보상 들의 합의 기대값으로 놓고 그것을 최대로 하는 seta 를 찾는게 목표이다.
이 식으로 인해 grad(log_pi_seta(타우=경로) ) 의 기대값을 계산하면 costfunction 의 그라디언트를 구할 수 있는데,
이 값(grad(log_pi_seta(타우=경로) )은 기대값이기 때문에 MC - method 등으로 인해 경험적으로 구할 수 있다.
하는이유 : DQN 에 비해 좋은 수렴성
Baseline - 강화학습에서 미리 계산된 Value Function 을 사용 할 수도 있다.
A = Q - V 이렇게 놓고 A 를 수렴 시키기도한다. (분산이줄음)
Actor-Critic
위의 policy gradient 의 경우에는 MC 로 진행 햇을경우 높은 분산값을 갖는데 그값을 줄이기위해서
ACtor Q 를 수렴
Critic V 를 수렴 ( Q 의 action 선택을 비평)
Critic은 action value function을 approximate하는 w를 update하고
이때 Ciritic 도 network 를 사용하는 이유는 모든 경우를 trial 하지 않고 적은 sample 로도 기대값의 합을 알수 있게 되는 효과가 있다.
Actor는 policy를 approximate하는 seta를 update 따라서 w와 seta, 두 개의 weight parameter 를 갖는 강화학습 방법
DDPG
NAtural Policy
TRPO PPO 등이 더있는데. 나중에 정리하겠다.
'Machine.Learning > reinforcement' 카테고리의 다른 글
Blackjack with DP vs Blackjack with MC (0) | 2020.12.08 |
---|---|
Cliff exploration, Sarsa vs Q-Learning (0) | 2020.12.06 |
6장 TD (0) | 2020.11.30 |
5. Monte Carlo method (MC method) (0) | 2020.11.30 |
4. 4장 DP (Policy Evaluation and improvement) (0) | 2020.11.30 |