AI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介

  • 时间:
  • 浏览:6

V函数和Q函数就有递归关系,这种 通过Bellman 等式很多 能证明,这里就是再赘述。

就是人 的目标Gt是获得奖励,有了R,有了S,有了Pss' 矩阵,实际上就是人 就很多 估算出每三个 S上的Gt:E(Gt|St = S)。

Gt 是就是 定义的:

再次注意,Pss'反映的是情况表间的转移概率,π(a|s)是情况表和行动间的策略概率

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言机会访问我的Steemit主页

(注意pub 那个圆坑 这里变成了行动,而就有情况表,主就是为了上方区分sate-value function 和 action-value function)

通过Q函数来求V函数:

就是如果 提到的State transition probability matrix。

举个栗子:

如下图,三个 学生学习一门课程,有6个情况表:从Class1 到 Class 3 的学习,到Pass再到去Sleep。上方机会去刷Facebook, 去Sleep机会去酒吧(Pub)喝酒。

这种 估算出来的Gt就叫做这种 情况表S上的Sate Value function(情况表值函数): v(S)

其中,哪些数字(0.9,0.1)和箭头就代表了Pss' 的数值和情况表转移的方向。Pss' 实际上是三个 矩阵,如下图:

DP是三个 随机的过程,在有了策略 (policy)π如果 才整个过程才有了规律,策略也是三个 概率分布,体现了在给定情况表下采取行动的概率。

当然就是人 更关心策略是要怎样指导行动的,就是人 引入行动值函数(Action-Value Function) qπ(s,a) 的概念。看起来是就有很眼熟,机会就是人 通常又叫他q函数,参见如果 的文章Q-Learning。

利用上方的公式就是人 很多 轻易验证例子中pass的V函数:

注意:π(a|study)= π(a|pub) =0.5

策略是用来指导行动的,不言而喻与描述情况表间的Pss' 混淆了。当然两者是有联系的,上方机会提到。

R

G

这是MDP最重要的的概念。前面机会提到了情况表值函数(State-Value Function)v(S)(上方简称V函数),就是 不在 机器人,不在 策略指导机器人的行动。

当然上方两图组合(公式的带入)就能反映该情况表的V函数和下三个 情况表的V函数的递归关系。

的物理意义就是如果 情况表的所有R的总和。

γ为衰减值(0到1之间),就是人 在如果 Q-Learning中机会介绍过了,就不在 来很多说了。

倒过来组合(公式带入)就能反映该行动下的Q函数和下三个 行动的Q函数的递归关系。

有了前面MP的铺垫,加上D(Decision)就是MDP(马可夫决策过程了)。这种 决策是要决策哪些呢?就是要决策行动(Action)

前面好几篇文章就有介绍强化学习(RL),以及强化学习的就是具体算法,就是 强化学习中用到的最重要的理论MDP却还没提到。这篇文章就来得话MDP。

机会加入了行动,就是q函数的物理意义就是,在当前策略的指导下,在当前情况表下,采取行动a如果 所能预期得到的奖励是哪几只。

注意,MDP除去决策"D",就是MP。MP是三个 随机过程。从现在情况表 S下三个 情况表 S' 通过Pss' 情况表转移概率矩阵(State transition probability matrix)来完成这种 过程, Pss'就是概率,就是MP还是随机的。

就是人 很多 轻易验证4.3这种 v(s) 是是不是正确,如下图(γ=1)

讲MDP的文章和资料非常多,理论和数学公式很多 轻易找到,就是本文并就有要严谨地推导MDP,就是想让读者感性地认识MDP以及它对强化学习的重要性。本文主要的参考资料来自于David Silver 教授(DeepMind 的创始人)在UCL的课程以及Richard S. Sutton and Andrew G. Barto的经典书籍:Reinforcement Learning: An Introduction

在任意三个 情况表S要怎样求v(S)呢?必须用到下面这种 公式

上图,空心代表情况表,实心代表行动。所有行动的策略π(a|s)与Q函数qπ()的乘积之和就能得到V函数。

是这种 情况表的奖励,S' 是下三个 情况表(下个机会的情况表机会不止三个 ),P

同样的,所有下三个 情况表的V函数与对应的Pss'乘积之和加上上采取该行动的奖励就能求得Q函数。

有了策略π如果 vπ(s)的物理意义就是,在该策略的指导下,在目前这种 情况表下,如果 很多 预期的到的的奖励是哪几只。

RL是要通过对环境不停地试错来学习的,MDP就是用来描述RL中的环境。

本文介绍了MDP的基本概念,然而就是人 了解MDP的概念是为了指导就是人 的行动,从而得到最优的结果。换句话说就是选泽最优的策略,得到最多的奖励。再换句话说就是求最大的V函数和Q函数,哪些内容将装进去下一篇文章再做介绍。

v(S)很明显是三个 递归的过程,也却得话知道了最终情况表v(S最终)(上方那个例子是Sleep)就很多 倒推到初始情况表的v(S初始),这种 关系就是用Bellman 等式表达出来的。

这种 公式的物理意义也很简单,就是这种 情况表的奖励加上所有机会的下三个 情况表的v(S')和对应的Pss' 的乘积之和,再乘以衰减值γ。

奖励R是环境的反馈,当然这种 反馈是与行动A, 相关的。在还没引入行动这种 概念如果 ,不言而喻认为只与情况表S有关。下图是加上了奖励参数的样子:

正如如果 提到的,行动A的奖励R不仅跟情况表S相关,就是 与行动A也是相关的,还是如果 学生学习课程的例子,加上行动和与行动相关的R,如图: