一文带你理解Q-Learning的搜索策略掌握强化学习最常用算法

时间：2019-08-09 来源：(原创/投稿/转载) 编辑：联络员

　　通过状态感知、选择动作和接收奖励来与环境互动。每一步中，智能体都会通过观察环境状态，选择并执行一个动作，来改变其状态并获得奖励。

　　在传统环境中，马尔可夫决策过程（Markov Decision Processes, MDP）可以解决不少RL问题。这里，我们不会深入讨论MDP的理论，有关MDP算法的更多内容可参考：

　　森林管理包括两个动作，等待和砍伐。每年要做出一个决定，一是为林中动物保持古老森林，二是砍伐木材来而赚钱。而且，每年有p概率发生森林火灾，有1-p的概率为森林生长。

　　最优策略是等到森林处于古老且茂盛的状态时进行砍伐，这容易理解，因为在森林处于最古老的状态时砍伐的奖励是等待让森林生长的奖励的5倍，有r1=10，r2=50。

　　Q-Learning算法中的“Q”代表着策略π的质量函数（Quality function），该函数能在观察状态s确定动作a后，把每个状态动作对 (s, a) 与总期望的折扣未来奖励进行映射。

　　Q-Learning算法属于model-free型，这意味着它不会对MDP动态知识进行建模，而是直接估计每个状态下每个动作的Q值。然后，通过在每个状态下选择具有最高Q值的动作，来绘制相应的策略。

　　有关Q-Learning的其他细节，这里不再介绍，更多内容可观看Siraj Raval的解释视频。

　　合理平衡好探索和利用的关系，对智能体的学习能力有重大影响。过多的探索会阻碍智能体最大限度地获得短期奖励，因为选择继续探索可能获得较低的环境奖励。另一方面，由于选择的利用动作可能不是最优的，因此靠不完全知识来利用环境会阻碍长期奖励的最大化。

　　这可能是最常用也是最简单的搜索策略，即用ε调整探索动作。在许多实现中，ε会随着时间不断衰减，但也有不少情况，ε会被设置为常数。

　　不确定优先（Optimism in Face of Uncertainty）搜索策略，最开始被用来解决随机式多臂******机问题（Stochastic Multi-Armed Bandit），这是一个很经典的决策问题，赌徒要转动一个拥有n个槽的老虎机，转动每个槽都有固定回报概率，目标是找到回报概率最高的槽并且不断地选择它来获取最高的回报。

　　赌徒面临着利用还是探索的问题，利用机器获得最高的平均奖励或探索其他未玩过的机器，以期望获得更高的奖励。

　　不确定优先状态：只要我们对某个槽的回报不确定时不确定手臂的结果，我们就会考虑当前环境来选择最佳的手臂。

　　此时，智能体的目标为Argmax {Q(s, a)/ a ∈ A}，这意味着在状态s中选择具有最高Q值的动作。但是在t时刻Q（s，a）值是未知的。

　　霍夫不等式（Hoeffding’s inequality）可用来处理这类误差。事实上，当t变化时，有：

　　这种界限方法是目前最常用的，基于这种界限后面也有许多改进工作，包括UCB-V，UCB*，KL-UCB，Bayes-UCB和BESA[4]等。

　　UCB搜索算法应该能很快地获得高额奖励，但是前期搜索对训练过程的影响较大，有希望用来解决更复杂的多臂******机问题，因为这种方法能帮助智能体跳出局部最优值。

上一篇：湖北省工业建筑集团安装工程有限公司
下一篇：Q++模块插件v135 安卓版

栏目分类

随机推荐