Markov Decision Process

Markov Decision Process

Markov Decision Process (MDP) 는 이산시간 확률제어 과정 (discrete time stochastic control process) 으로서, 일련의 상태 (states), 행동 (actions), 주어진 상태에서 선택된 행동에 의존하는 전이확률행렬 (transition probability matrices) 등을 특징으로 한다. dynamic programming 과 강화학습 (Reinforcement learning) 을 통한 해법을 찾는 광범위한 최적화문제 (optimization problem) 를 연구하는데에 MDP 는 유용하다. ....... (Wikipedia : Markov decision process)

참고서적

Bellman, R. E. Dynamic Programming. Princeton University Press, Princeton, NJ.

M. L. Puterman. Markov Decision Processes. Wiley, 1994.

Site :

MDP Toolbox for Matlab - An excellent tutorial and Matlab toolbox for working with MDPs.