2021년 8월 29일 일요일

PR402 - 5: Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning

 이번에 리뷰해볼 논문은 Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning (Wu et al., ICML 2021 Accepted)입니다. 이번 ICML accepted 목록을 훑어보다가 눈에 확 들어온 녀석인데요, 가독성도 굉장히 좋고 내용도 짧으니 읽어보시는걸 추천드립니다.

Link - https://arxiv.org/abs/2105.08140


Intro:

Deep RL은 굉장한 성능을 보여주고 있으나, 아직 넘어야 할 벽이 많습니다. RL에 내재된 단점 중 하나인 과거의 데이터로부터 학습할 수 없다는 점 또한 그에 해당됩니다. 따라서 이를 보완하고자 prior experience를 활용한 offline learning을 사용할 수 있는데, 해당 논문에서는 더 정확하고 안전하게 offline learning을 사용할 수 있는 방법을 제안합니다.


Main Content:

prior experience를 사용할 때의 단점은 해당 data point가 현재의 policy를 통해 도달할 확률이 낮은 지점의 경우 또한 학습에 사용된다는 점입니다. 예를 들어 체스 AI를 만드는데, 어느 정도 학습한 AI에게 과거에 처음 학습할 때 나왔던 기보들을 학습시킨다면 오히려 AI의 학습에 방해가 되는 정도로 이해할 수 있습니다. 물론 해당 문제점은 data가 많이 쌓이면 해결될 수 있겠지만, 애초에 많은 data를 확보할 수 있는 경우 굳이 offline learning을 쓰지 않아도 되기 때문에 고려 대상이 아닙니다.

그렇다면 어떻게 그러한 data point들이 학습에 끼치는 영향을 최소화할 수 있을까요? 본 논문에서는 이를 uncertainty weighting을 통해 해결합니다. 간단히 요약하자면, Dropout을 통한 uncertainty quantification을 할 수 있으니, (Yarin Gal의 논문 https://arxiv.org/abs/1506.02142) uncertainty가 높은 녀석은 학습에 끼치는 영향을 낮추자는 것입니다. 알고리즘의 수도코드는 다음과 같습니다.



빨간 부분이 원래의 코드와 다른 부분입니다. 7, 8번 라인을 보면 actor가 뱉어낸 값의 variance가 큰 경우 loss또한 해당 variance로 나눠주어 학습에 끼치는 영향이 작아집니다. 반대로, variance가 작은경우 loss가 커지므로 학습에 끼치는 영향이 커집니다. 저렇게 수도코드에서 강조해 주니 읽기가 정말 편하긴 하네요. 


Experiment:

가장 왼쪽이 UWAC인데, 볼드체 처리가 많은 것으로 보아 몇몇 태스크들에서는 SOTA들을 뛰어넘는 성능을 보여주고 있다는 것을 알 수 있습니다. 적용도 그리 어렵지 않으니 기존에 Dropout을 사용하는 모델의 경우 거의 바로 구현해볼 수 있을 것 같습니다.


Conclusion:
읽기도 편하고 아이디어도 좋고 성능도 준수하고 전반적으로 만족스러운 리딩이었습니다. 기존의 논문들은 대부분 data augmentation이나 input level에서 uncertainty를 활용해서 건드려줬던 것 같은데 RL쪽에서는 이렇게 사용될 수도 있겠네요. 사실 RL쪽에서 Offline Learning의 개념에 적용하기 좋아서 좋은 논문이 된 것 같습니다. 아이디어 자체는 굉장히 단순한데 말이죠. 예전 제 포스팅 (https://ajlab402.blogspot.com/2021/04/trading-ai-development-day-5.html) 을 쓸 때도 고민해보았던 부분이었어서 더 재미있게 읽었던 것 같네요. 그때의 아이디어는 '매번 베팅에 뛰어들지 말고 uncertainty를 측정해서 낮게 나오는, 즉 승률이 조금이라도 높은 싸움에만 뛰어든다면 수익률을 높일 수 있지 않을까?' 하는 고민이었는데, 결과적으로 uncertainty가 거의 의미가 없다시피해서 적용해보지는 못했던 기억이 납니다. 본 논문에서 소개된 UWAC는 차후에 금융 분야에 RL을 적용해볼 때 가장 먼저 고민해볼 옵션 중에 하나가 될 것 같습니다. 

댓글 없음:

댓글 쓰기