강화학습으로 지뢰찾기 문제를 해결했다. 초급 기준 평균 승률 84% 모델을 학습시켰고 배포를 위한 웹, 지뢰찾기의 이론적 풀이를 진행했다.
pythonwebRL
알파제로를 기반으로 오목을 두는 모델을 개발했다. 현실에서 인간과 상호작용하기 위해 아두이노로 제어하는 로봇팔을 제작하고 수를 두도록 학습시켰다.
pythonRLRoboticsArduinoC++web
고전적인 학습 전략부터 알파제로까지를 전부 사용해 틱택토를 학습했다. CNC 로봇을 구현해 현실에서 인간과 상호작용할 수 있게 만들었다.
DQN, Double-DQN, Dueling DQN, PER Memory를 이용해 2048 에이전트와 모델의 플레이를 시각적으로 확인할 수 있는 데모 앱을 개발했다.
pythonTypeScriptRL
PPO 알고리즘을 이용해 평균 수익률 6.5%, Sharpe Ratio 0.8, 최대 낙폭 -12%, 승률 48% 모델을 개발했다.
pythonRL