[강화시스터즈 2기/04주차/강화학습세션] 몬테 카를로 예측, 시간차 예측, Q러닝
4주차 강화학습 세션
요약
- 몬테카를로 예측, 시간차 예측, SARSA(deep SARSA까지), 온오프 폴리쉬, 큐러닝에 대해 학습했습니다.
- 몬테카를로 방법론을 사용하는 틱택토 코드 구현 후 피어 리뷰를 진행했습니다.
개인 발표
- 📗 몬테카를로 예측 : 이은나 벗
- 📗 SARSA : 장예원 벗
- 📗 Q-러닝과 온폴리쉬,오프폴리쉬 : 이정연 벗
☝️ 제목을 누르면 글로 이동합니다.
사진