1. MDP (Markov Decision Process)강화학습의 뼈대가 되는 MDP의 구성 요소, 마르코프 속성, 최적 정책의 의미를 정리한다. 2025/08/27 RL, Study