[강화시스터즈 2기/04주차/강화학습세션] 몬테 카를로 예측, 시간차 예측, Q러닝

30 September 2024 - less than 1 min read time

Tags: 24-2

4주차 강화학습 세션

요약

몬테카를로 예측, 시간차 예측, SARSA(deep SARSA까지), 온오프 폴리쉬, 큐러닝에 대해 학습했습니다.
몬테카를로 방법론을 사용하는 틱택토 코드 구현 후 피어 리뷰를 진행했습니다.

개인 발표

📗 몬테카를로 예측 : 이은나 벗
📗 SARSA : 장예원 벗
📗 Q-러닝과 온폴리쉬,오프폴리쉬 : 이정연 벗

☝️ 제목을 누르면 글로 이동합니다.

사진

Comments