[강화시스터즈 1기] 4주차 세션

4주차 강화학습 세션

요약

개인 발표

부트스트랩이란 주제를 가지고 통계학, 머신러닝, 강화학습에서 부트스트랩 방법론이 어떻게 사용되는지 설명해주셨습니다.

강화학습 세션

MDP 문제를 해결하기 위해 고안된 강화학습의 근본 방법론에 대해 알아보았습니다. GPI와 강화학습, 몬테카를로 예측, 시간차 예측, 시간차 제어의 SARSA, Q-Learning, 온폴리쉬-오프폴리쉬, 탐험과 같은 키워드들을 중심으로 학습했습니다.

코드 실습에서는 SARSA Agent를 직접 구현해보는 시간을 가졌습니다. 이를 위해 강화학습의 기본 구조인 Agent-Env의 관계와 강화학습의 주요 구성요소들이 어느 class에 들어가야 하는지 틀을 세웠습니다.

주요 질의응답

1. step size의 역할이 정확히 무엇인지 궁금하다.




Comments