오늘 리뷰해볼 논문은 Safe Reinforcement Learning with Linear Function Approximation (Amani et al.) 입니다. ICML2021 Accepted Paper이고, 바로 들어가겠습니다.
사실 제목과 Abstract를 보고 기대하던 방향이 있었는데 DRL에 익숙해져있다보니 Linear Function Approximation을 다르게 생각하고 있었네요. 그래서 관심있게 보지는 않았기에 짧게만 리뷰해보겠습니다.
Link - https://arxiv.org/abs/2106.06239
Intro:
RL을 Real-World에 적용할 때 어려움이 있는 분야들이 있습니다. 위험이 수반되는 경우가 그 대표적인 케이스인데요, 자율주행을 생각해보면 좋을 것 같습니다. Action이 완전히 자유로운 경우 사고가 나는 action을 선택할 수 있기 때문에 safe한 learning이 필요합니다. 예를 들어 A부터 B까지 최대한 빨리 가는 알고리즘을 만들고자 할 때, 교통신호를 준수하도록 하고, 사고가 날 위험성을 낮게 하면서 빨리 도착하는 알고리즘을 짜야 합니다. 따라서 사고가 날 위험성에 대한 threshold가 필요합니다. 해당 논문은 이러한 Safe한 action에 초점을 맞추었는데, 최근의 흐름과는 살짝 맞지 않지만 RL의 approximation function으로 Linear Function을 사용하였습니다.
Contents:
비슷한 주제의 기존 연구로는 CMDP(Constrained MDP)가 대표적입니다. 다른 연구들도 몇 있으나 해당 논문이 기존의 연구들과 다른 점은 수학적인 증명이 더해졌다는 점입니다. 즉, guaranteed라는 점에서 보다 매력적입니다.
Problem Formulation은 다음과 같이 이루어집니다. State와 Action을 알고있다는 전제 하에, Transition Probability & Reward & Safety measures는 unknown으로서, 학습될 대상으로 삼습니다.
위에서 보다시피, safety measures는 c로 표시되는데 threshold를 넘지 않는 action들만 선택됩니다. 즉, action masking을 dynamic하게 한다고도 생각해볼 수 있겠네요.
이러한 Problem setting에서 제안되는 알고리즘은 SLUCB-QVI (Safe Linear Upper Confidence Bound - Q/V iteration)입니다.
Notation이나 정확한 수식에 대해 자세히 알고 싶으신 분들은 논문을 참조해주시면 될 것 같습니다. 위의 알고리즘을 요약하자면, 매 timestep마다 관찰된 state에서 threshold를 넘지 않는 action set을 만들고, 해당 action들에 대해서 Q function을 계산한 후 가장 높은 Q값을 갖는 action을 선택하는 것입니다. 여기서 safety measure는 메인 선형근사함수 Φ와 safety measure용 벡터 γ와의 내적으로 계산됩니다. 개념적으로는 LSVI-UCB와 대비되는 부분이 있으니까 참고하셔도 좋을 것 같습니다. 나머지 부분에서는 수렴성을 수학적으로 증명하고, 이를 deterministic이 아니라 randomized policy selection으로 확장하여 RSLUCB-QVI (이름이 상당히 기네요 ㅋㅋ..) 알고리즘을 제안합니다.
Performance는 다음과 같습니다.
해당 논문의 performance는 보라색으로 표시되어 있습니다. 대충 보면 다른 알고리즘들보다 performance가 굉장히 낮은 것처럼 보이는데, 그렇지만은 않습니다. 우선 label을 보면 # of violations가 나오는데 다른 LSVI 기반은 기본적으로 violation이 높습니다. 마지막의 하늘색 경우는 safe set을 알고있는 상태이기 때문에 violation이 없는 경우입니다. 따라서, violation이 상대적으로 적은 빨간색과 주황색과 비교해본다면 보라색은 꽤 만족할만한 결과를 얻었음을 알 수 있습니다.
Conclusion:
Linear Function 기반의 RL에서 Safety가 보장된 학습의 수렴성을 증명하였다는 점에서 신선했습니다. 그러나 어차피 DRL 기반 알고리즘들을 성능 면에서 이기기 힘들 것 같은데 이러한 알고리즘이 도움이 되나 싶기도 합니다. 그러나 해당 논문에서의 threshold 정의방식이나 dynamic한 action masking과 유사한 알고리즘을 DRL에 적용하면 기존 DRL에서 주로 논의되던 Uncertainty Quantification쪽과 다른 새로운 Safety Measure로서 사용될 만하다고 생각합니다.
댓글 없음:
댓글 쓰기