[강화시스터즈 1기] 3주차 세션
3주차 강화학습 세션
요약
다이나믹 프로그래밍 이론을 공부하고, 그리드월드에서 정책 이터레이션 코드를 구현해보는 시간을 가졌습니다. 이론과 구현의 갭이 멀어지지 않도록, 이론 사이 사이에 구현 방식에 대해 같이 고민했습니다. Namespace와 몬테카를로에 대한 개인 발표를 진행해 전반적인 코드와 통계적인 이해도를 높였습니다. 구체적인 개인 발표 내용은 추후 [개념정리] 카테고리에서 확인하실 수 있습니다.
개인 발표
- 📗 NameSpace : 김정은 벗
- 📗 몬테카를로 시뮬레이션 : 김도희 벗
namespace를 설명하고, python, C에서 namespace가 어떻게 적용되는지 발표해주셨습니다. 다음주에 있을 몬테카를로 강화학습을 공부하기 앞서, 몬테카를로 이론에 대해 발표해주셨습니다.
강화학습 세션
- 📗 다이나믹 프로그래밍:정책,가치 이터레이션을 중심으로
- 👩💻 정책 이터레이션 코드 구현
다이나믹 프로그래밍의 의의, 정책 이터레이션, 가치 이터레이션, 비동기 다이나믹 프로그래밍, GPI 이론을 공부했습니다. 정책 이터레이션 - 가치 이터레이션 간의 차이를 학습하고, 구현 방식에 대해 고민했습니다. 첫 번째 코드 구현 시간이었기 때문에, 운영진이 사전에 구현한 환경, 정책 이터레이션 코드의 핵심적인 아이디어를 공유했습니다.