이번에 리뷰해볼 논문은 Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning (Wu et al., ICML 2021 Accepted)입니다. 이번 ICML accepted 목록을 훑어보다가 눈에 확 들어온 녀석인데요, 가독성도 굉장히 좋고 내용도 짧으니 읽어보시는걸 추천드립니다.
Link - https://arxiv.org/abs/2105.08140
Intro:
Deep RL은 굉장한 성능을 보여주고 있으나, 아직 넘어야 할 벽이 많습니다. RL에 내재된 단점 중 하나인 과거의 데이터로부터 학습할 수 없다는 점 또한 그에 해당됩니다. 따라서 이를 보완하고자 prior experience를 활용한 offline learning을 사용할 수 있는데, 해당 논문에서는 더 정확하고 안전하게 offline learning을 사용할 수 있는 방법을 제안합니다.
Main Content:
prior experience를 사용할 때의 단점은 해당 data point가 현재의 policy를 통해 도달할 확률이 낮은 지점의 경우 또한 학습에 사용된다는 점입니다. 예를 들어 체스 AI를 만드는데, 어느 정도 학습한 AI에게 과거에 처음 학습할 때 나왔던 기보들을 학습시킨다면 오히려 AI의 학습에 방해가 되는 정도로 이해할 수 있습니다. 물론 해당 문제점은 data가 많이 쌓이면 해결될 수 있겠지만, 애초에 많은 data를 확보할 수 있는 경우 굳이 offline learning을 쓰지 않아도 되기 때문에 고려 대상이 아닙니다.
그렇다면 어떻게 그러한 data point들이 학습에 끼치는 영향을 최소화할 수 있을까요? 본 논문에서는 이를 uncertainty weighting을 통해 해결합니다. 간단히 요약하자면, Dropout을 통한 uncertainty quantification을 할 수 있으니, (Yarin Gal의 논문 https://arxiv.org/abs/1506.02142) uncertainty가 높은 녀석은 학습에 끼치는 영향을 낮추자는 것입니다. 알고리즘의 수도코드는 다음과 같습니다.
빨간 부분이 원래의 코드와 다른 부분입니다. 7, 8번 라인을 보면 actor가 뱉어낸 값의 variance가 큰 경우 loss또한 해당 variance로 나눠주어 학습에 끼치는 영향이 작아집니다. 반대로, variance가 작은경우 loss가 커지므로 학습에 끼치는 영향이 커집니다. 저렇게 수도코드에서 강조해 주니 읽기가 정말 편하긴 하네요.
Experiment:
가장 왼쪽이 UWAC인데, 볼드체 처리가 많은 것으로 보아 몇몇 태스크들에서는 SOTA들을 뛰어넘는 성능을 보여주고 있다는 것을 알 수 있습니다. 적용도 그리 어렵지 않으니 기존에 Dropout을 사용하는 모델의 경우 거의 바로 구현해볼 수 있을 것 같습니다.
댓글 없음:
댓글 쓰기