馬可夫決策過程

在概率论和统计学中，馬可夫決策過程（英語：，縮寫為MDPs）提供了一個數學架構模型，用於面對部份隨機，部份可由決策者控制的狀態下，如何進行決策，以俄罗斯数学家安德雷·马尔可夫的名字命名，是马尔科夫链的一种扩展。

在經由動態規劃與強化學習以解決最佳化問題的研究領域中，馬可夫決策過程是一個有用的工具。广泛应用于机器人学，自动化控制，经济学和制造业的一种工具。

在每一个时间步，把当前状态记为状态 $s$ ，决策机会从当前状态下可选的动作中选择一个动作 $a$ 。当前状态通过动作进行到下一个状态 $s'$ ，并返回决策机一个反馈值 $R_{a}(s,s')$ 。

马尔可夫过程在概率论和统计学方面皆有影响。一个通过不相关的自变量定义的随机过程，并（从数学上）体现出马尔可夫性质，以具有此性质为依据可推断出任何马尔可夫过程。实际应用中更为重要的是，使用具有马尔可夫性质这个假设来建立模型。在建模领域，具有马尔可夫性质的假设是向随机过程模型中引入统计相关性的同时，当分支增多时，允许相关性下降的少有几种简单的方式。

参见

参考文献

Yosida, K. “Functional Analysis”, Ch XIII, § 3, Springer-Verlag, 1968. ISBN 3-540-58654-7
Ribarič.M. and I.Vidav, “An inequality for concave functions.” Glasnik Matematički 8 (28), 183–186 (1973).

外部链接

埃里克·韦斯坦因. . MathWorld.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.