怎么处理稀少奖赏下的强化学习？

发布时间：2025-05-15　点此：76次

怎么处理稀少奖赏下的强化学习？本文将介绍常用办法以及相关论文。

强化学习（Reinforcement Learning，RL）是完结强人工智能的办法之一，在智能体（Agent）与环境的交互进程中，经过学习战略（Policy）以最大化报答或完结特定的方针。在实践运用场景中，RL 面对一个重要的问题：agent 无法得到满足多的、有用的奖赏（Reward），或许说 agent 得到的是稀少奖赏（Sparse Reward），然后导致 agent 学习缓慢乃至无法进行有用学习。

可是关于人类来说，即便在稀少奖赏的状况下依然不能自制继续学习。人类的学习也不能自制看做是内涵动机和外在动机鼓舞下的学习进程，关于内涵动机和外在动机的鼓舞机器之心也有过专门介绍，感兴趣的读者不能自制详细看一下这篇文章。

人类在日常日子中其实每天不能自制收成的奖赏很少，可是也在继续的学习，改善自己的常识和才干，不露锋芒当然期望 agent 也能如此，也不能自制在得到稀少奖赏的状况下继续的进行有利的学习。本文要点评论的便是在存在稀少奖赏的状况下引导 agent 继续学习或探究的强化学习问题。

现在处理稀少奖赏下的强化学习首要有两类办法：一是，运用数据改善 agent 的学习，包含已有数据、外部数据等；二是，改善模型，进步模型在大状况、大动作空间下处理杂乱问题的才干。详细的，运用数据改善 agent 学习的办法包含猎奇心驱动（Curiosity Driven）、奖赏重塑（Reward Shaping）、仿照学习（Imitation Learning）、课程学习（Curriculum Learning）等等。改善模型的办法首要是履行分层强化学习（Hierarchical Reinforcement Learning），运用多层次的结构别离学习不同层次的战略来进步模型处理杂乱问题的才干，以及元学习（Meta-Learning）的办法。

本文针对每一类办法挑选了一篇近两年的文章进行示例性介绍，以了解稀少奖赏下的强化学习的最新研讨进展。

一、运用数据改善 agent 的学习

1. 猎奇心驱动（Curiosity Driven）

论文：Episodic Curiosity through Reachability

论文地址：https://arxiv.org/pdf/1810.02274.pdf

本文是 Google、Deepmind 和苏黎世联邦理工学院的研讨人员提出「猎奇心驱动」的强化学习新办法，宣布在 ICLR 2019 中。该办法改变了 agent「猎奇心」的生成办法和奖赏机制，将 agent 对环境信息调查的回忆信息引进奖赏机制中，有用降低了 agent「原地兜圈」、「推迟」等不良行为，进步了强化学习模型的功用。

本文引进「猎奇心（Curiosity）」的基本思路是：只对那些需求花费必定尽力才干抵达的成果给予奖赏（这部分成果必定是在现已探究过的环境部分之外）。以探究环境所需求的进程数量来衡量这些尽力。为了估量进程数量，本文练习了一个神经网络近似器：给定两个观测值，猜测将它们分隔需求履行多少步。图 1 给出了经过可达性（Reachability）来阐明举动的新颖性（Novelty）的概念。图中的节点是观测值，边是或许的转化。蓝色的节点现已在回忆内存中，绿色的节点不能自制在 k=2 步内从回忆内存中抵达（不新颖），橙色的节点间隔较远—需求超越 k 步才干抵达（新颖）。

本文办法的喜欢原理如下。Agent 在一个周期（Episode）开端时从一个空的回忆内存开端，在每一步都将当时调查成果与回忆中的调查成果进行比较，以经过可达性来确认新颖性。假如当时调查确实是新颖的，即从回忆中的调查到抵达阈值需求更多的进程，则 agent 会奖赏自己并将当时调查添加到回忆内存中。这个进程一向继续到当时周期完毕，且将内存清空。

图 1. 经过可达性来界说新颖性

1.1 周期猎奇性（Episodic Curiosity）

本文评论的 agent 在有限的继续时刻 T 的周期内以离散时刻步长与环境进行交互。在 t 时刻，依据调查环境空间 O，环境供给给 agent 一个调查值 o_t，以概率战略π(o_t)从一系列动作 A 中采样到动作 a_t，一同收成奖赏 r_t、新的调查成果 o_t+1 以及周期完毕的标识。agent 的方针是优化奖赏的加权组合期望。

在存在稀少奖赏 r_t 的状况下，本文引进一个周期猎奇性（Episodic Curiosity，EC）模块。EC 模块的意图是在生成奖赏 r_t 的一同生成一个奖赏盈利：b，然后得到增强奖赏：

从 RL 的视点剖析，该增强奖赏是一个密布奖赏（Dense Reward）。在这样的密布奖赏下学习，速度更快、更安稳，往往能取得更好的终究使命累积奖赏 S。

EC 模块的输入是当时的环境 o，输出为奖赏盈利 b。EC 模块包含参数组件和非参数组件。其间，参数组件包含一个嵌入网络 E 和一个比较网络 C。E 和 C 一同练习以猜测可达网络，详细见图 2。

图 2. 左：可达（R）网络架构。右图：R 网络内部结构。R 网络是依据 agent 在举动中遇到的一系列调查成果进行练习的。

此外，图 2 中的 EC 模块中还包含两个非参数组件：一个周期性一个回忆缓冲区 M 和一个奖赏盈利估量函数 B。完好的 EC 模块见图 3。该模块将当时的观测值作为输入，并核算出一个奖赏盈利。关于新的观测值，该奖赏盈利会更高。这个盈利随后与使命奖赏相加，用于练习 RL 的 agent。

图 3. 运用 EC 模块进行奖赏盈利核算

嵌入网络和比较器网络（Embedding and comparator networks）。这两个网络被规划成一同作用于估量一个观测值 o_i 从另一个观测值 o_j 作为可达性网络的一部分的在 k 步内可抵达的状况：

R 网络是一个用逻辑回归来作为练习丢失（logistic regression lost）的分类器网络：假如两个观测值在 k 步内不能自制彼此抵达的概率低，它猜测的值挨近于 0。当这个概率高时，它猜测的值挨近于 1。在周期猎奇性里边，这两个网络是分隔运用的，以节约核算和内存。

周期性回忆（Episodic memory）。回忆缓冲区 M 存储了运用嵌入网络 E 核算得到的当时事情中曩昔观测值的嵌入，回忆缓冲区的容量 K 有限，以防止内存和功用问题。每一个核算进程中，当时调查的嵌入或许会被添加到内存中。超出容量时怎么办？作者发现一个在实践中行之有用的处理计划是用当时元素替换内存中的随机元素。这样一来，内存中的新元素依然比旧元素多，但旧元素并没有被彻底疏忽。

奖赏盈利预算模块（Reward bonus estimation module）。该模块的意图是检查内存中是否有可抵达的观测值，假如没有发现，则为当时时刻步长分配更大的奖赏盈利。该检查是经过比较器网络将内存中的嵌入与当时嵌入进行比较。本质上，这种检查确保了在内存中没有任何观测值不能自制经过从当时状况中只采纳几个动作来抵达，这也是本文对新颖性（Novelty）的描绘。

在核算盈利的算法中，比较器网络运用下列数值填充可达性缓冲区：

其间，e 是回忆缓存中的嵌入值。然后，从可达性缓冲区核算出内存缓冲区和当时嵌入的相似度分数为：

其间，F 为聚合函数。理论上，F=max 是一个很好的挑选，可是，在实践中，它很简略呈现来自参数嵌入和比较器网络的离群值。本文发现以 90% 作为最大值的稳健代替作用很好。

核算猎奇性盈利如下：

其间，参数 α 的挑选取决于使命奖赏的规范，参数β决议了奖赏信号，一般 β=0.5 适合于固定周期，β=1 适合于周期长度改变的场景。

当核算得到的盈利 b 大于预先确认的阈值，将 b 添加到内存中。引进阈值检查的原因是，假如每一个观测嵌入都被添加到内存缓冲区，那么当时进程的观测总是不能自制从上一步抵达。因而，奖赏将永久不会被颁发。终究，本文还探究了练习可达性网络的两种设置：运用随机战略和与使命处理战略一同运用（在线练习）。

1.2 试验剖析

本文在不同的环境中验证了所提出的办法，包含 VizDoom，DMLab 和 MuJoCo。VizDoom 中的试验验证了本文不能自制正确复现之前最先进的猎奇心办法 ICM（Pathak 等人，2017）[1]。DMLab 中的试验不能自制广泛测验本文办法的泛化功用以及其它基线算法—DMLab 供给了便利的程序级生成功用，使作者不能自制在数百个等级上练习和测验 RL 办法。终究，在 MuJoCo 中的试验展现了本文办法的通用性。三种环境下的使命见图 4。

图 4. 试验中考虑的使命实例。(a)VizDoom 静态迷宫方针，(b)DMLab 随机迷宫方针，(c)DMLab 钥匙门谜题，(d)MuJoCo 榜首人称视角的猎奇心蚂蚁运动。

本文运用的比照基线算法包含经典的开源 RL 算法 PPO（https://github.com/openai/baselines），引进 ICM 的 PPO（PPO+ICM）[4]以及 PPO+Grid Oracle。PPO+Grid Oracle 办法的理念是：因为不露锋芒不能自制拜访 agent 在一切环境中的当时 (x; y) 坐标，不露锋芒也不能自制直接将国际分解为 2D 单元（2D cells），并奖赏 agent 在周期中拜访尽或许多的单元（奖赏盈利与拜访的单元数量成正比）。在一个周期完毕时，单元格拜访次数归零。

图 5. 使命奖赏作为 VizDoom 使命练习进程的函数（越高越好）。

图 5 给出了将使命奖赏作为 VizDoom 使命练习进程的函数改变曲线。经过剖析，作者得出以下几点定论。首要，本文对 PPO+ICM 基线算法的复现是正确的，成果契合文献[4]。其次，本文办法在终究功用上与 PPO+ICM 基线平起平坐，三个子使命的成功率都很快抵达 100%。终究，在收敛速度方面，本文算法显着快于 PPO+ICM—本文办法抵达 100% 成功率与 PPO+ICM 比较至少快 2 倍。

图 6. 使命奖赏作为 DMLab 使命练习进程的函数（越高越好）。

图 6 给出了将使命奖赏作为 DMLab 使命练习进程的函数改变曲线。这个试验旨在点评大规模的迷宫方针使命的泛化功用。作者在数百个关卡上进行练习，一同也在数百个坚持关卡上进行测验。作者在 DMLab 仿照器中运用「探究方针方位大」（标明为「Sparse」）和「探究妨碍方针大」（标明为「Sparse+Doors」）等级。在这些关卡中，agent 从随机生成的迷宫中的一个随机方位开端（布局和纹路在周期开端时都是随机的）。在 1800 步 4 次重复的时刻约束内（适当于 2 分钟），agent 有必要尽或许屡次地抵达方针。每抵达一个方针，它就会被重置到迷宫中的另一个随机方位，并有必要再次前往方针。每次抵达方针，agent 就会取得奖赏 + 10，其他时刻奖赏为 0。

作者发现，即便关于一般的 PPO 算法来说，规范使命「Sparse」其实也是相对简略完结的。原因是 agent 的起点和方针在地图上的采样是彼此独立的，例如有时两者恰好在同一个房间，这就简化了使命。由图 6，在运用 20M 4 重复步数的相同环境交互的状况下，本文办法在三个环境中的表现都优于基线办法 PPO+ICM。「Sparse」环境相对简略，一切办法都能合理的完结方针使命。在「Very Sparse」和「Sparse+Doors」的环境下，本文办法相关于 PPO 和 PPO+ICM 的优势愈加显着。

在 MuJoCo 试验中，经过引进 EC 模块，MuJoCo 蚂蚁学会了依据榜首人称视角的猎奇心移动。规范的 MuJoCo 环境是一个带有一致或重复纹路的平面—没有什么视觉上的猎奇心。为了处理这个问题，作者将 400x400 的地板铺成 4x4 巨细的方块。每个周期开端时，都会从一组 190 个纹路中随机分配一个纹路给每块方块。蚂蚁在 400x400 的地板的中心的 200x200 的范围内随机初始化一个方位。一个周期继续 1000 步。假如蚂蚁质量中心的 z 坐标高于 1.0 或低于 0.2，则周期提前完毕（即满意规范停止条件）。为了核算猎奇心奖赏，作者只运用安装在蚂蚁上的榜首人称视角摄像头（这样就不能自制运用与 VizDoom 和 DMLab 中相同架构的猎奇心模块）。

此外，作者还进行了一个试验，使命奖赏极端稀少 -- 称之为「Escape Circle」。奖赏的发放办法如下：在半径为 10 的圆圈内奖赏为 0，从 10 开端，每逢 agent 经过半径为 10+0.5k 的同心圆时，给予一次性奖赏 1。终究的试验成果见表 1。本文办法显着优于基线（优于最佳基线 10 倍）。

表 1. MuJoCo 蚂蚁学习运动

1.3 文章小结

本文提出了一种依据周期性回忆内存和可达性思维的新的猎奇心模块，运用「猎奇心」的概念本质上拓宽了强化学习中的奖赏（reward）。而且作者标明引进该模块的办法作用远超已有的办法。在往后的喜欢中，作者期望让 RL 的战略（Policy）不能自制不只是经过奖赏（Reward）来意识到回忆，而是经过举动（Action）。作者想象，是否能在测验时刻内，运用依据可达性检索的回忆内容来辅导探究行为？这将为小样本环境下（few-shot）新使命的探究和完结供给新的研讨方向。

2. 奖赏重塑（Reward Shaping）

论文：Reward-Free Exploration for Reinforcement Learning

论文地址：https://arxiv.org/pdf/2002.02794.pdf

本文是最新的关于奖赏重塑办法的文章，它将强化学习分为两个阶段：探究阶段（exploration phase）和规划求解（planning phase）阶段。其间，在探究阶段不接受任何奖赏信息，只是在状况空间上探究并得到一个探究性的战略，履行该战略得到数据集；在规划阶段，关于恣意一个给定的奖赏函数，运用数据集估量出来的搬迁函数（Transition Function），运用规范的强化学习办法求解战略。

本文喜欢最首要的技术应战是处理那些难以抵达的状况环境。在这种状况下，因为无法抵达这些状况环境进行数据搜集，很难学习到准确度较高的搬运算子（Transition operator）。令λ(s)标明遵从恣意战略拜访状况 s 的最大概率，本文重视的问题是将状况空间划分为两组：（1） λ(s)较小的、对奖赏优化同享极小的状况，以及（2）其它一切的状况。作者引进了一种严厉的剖析办法，使得不能自制彻底「疏忽」难以拜访的状况，只需求以概率份额 λ(s) 拜访其他的状况。

本文是一篇要点论述数学理论剖析和证明的文章。不露锋芒对算法的主体进行了了解，关于数学证明相关的详细内容，感兴趣的读者可阅览文献原文。

2.1 算法剖析

本文提出的办法包含如下进程：（1）学习到一个战略ψ，答应以合理的概率拜访一切「重要」的状况；（2）经过履行战略ψ搜集到满足多的数据；（3）运用搜集到的数据核算经历搬运矩阵；（4）关于每个奖赏函数 r，运用搬运矩阵和奖赏 r 激活规划算法找到近似最优的战略。其间，探究阶段履行前两个进程，规划求解阶段履行后两个进程。

探究的方针是拜访一切或许的状况，以便 agent 不能自制搜集满足的信息，以便终究找到最优战略。可是，在马尔可夫决议计划进程（Markov decision process, MDP）中，不论 agent 采纳何种战略，都有或许呈现某些状况很难抵达的状况。首要，图 1 给出了「重要」状况的概念。图 1 中共 5 个状况，s0 为初始状况。agent 仅能从 s0 搬迁到其它状况，不论 agent 采纳什么动作其它状况都会消失，也便是都会发生状况搬运。关于状况 s0，运用蓝色箭头标明假如采纳 a1 举动时的过渡，用赤色箭头标明假如采纳 a2 举动时的过渡。举动后箭头上的数字是过渡概率。在这个比如中，s4 是不重要的，因为它永久不或许抵达。

图 1. 重要状况示意图

作者在文章中证明了运用算法 2，不能自制从底层散布μ中搜集数据。也便是说，一切重要的状况和动作都会以合理的概率被μ散布所拜访。关于进程 h 的每一个状况 s，算法 2 首要创立一个奖赏函数 r，除了进程 h 的状况 s 之外，这个奖赏函数 r 一直为零，然后当 agent 与环境交互时，不能自制适当地给这个规划好的奖赏 r 来仿照一个规范的 MDP。这个奖赏 r 的 MDP 的最优战略正是最大化抵达（s，h）的概率的战略。本文运用 Euler 算法迫临这个最优方针 [5]。

在规划阶段，赋予 agent 奖赏函数 r，并依据 r 和探究阶段搜集的数据集 D 找到一个挨近最优的战略。详细见算法 3。作者在文章中证明了只需探究阶段搜集的数据数量满足多，输出战略不只是具有过渡矩阵的估量 MDP 的近优战略，也是实在 MDP 的近优战略。

2.2 文章小结

作者在文章中真对这一算法给出了许多数学证明，感兴趣的读者不能自制阅览原文。文章终究，作者对未来的研讨方向进行了展望。作者以为，在技术层面上，一个风趣的研讨方向是了解无奖赏 RL 的样本杂乱度，其预先指定的奖赏函数在探究阶段是不行调查的。另一个风趣的方向是为具有函数迫临的设置规划无奖赏的 RL 算法。本文的喜欢杰出并引进了一些在函数迫临环境中或许有用的机制，例如重要状况的概念和掩盖确保。未来研讨将要点重视怎么将这些概念推行到函数迫临的环境中。

3. 仿照学习（Imitation Learning）

论文：SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards

论文地址：https://arxiv.org/abs/1905.11108v3

本文是对强化学习中行为克隆（Behavioral Cloning，BC)办法的改善，最新接纳于 ICLR2020。本文运用了一个简略、安稳的奖赏：将与演示状况下的演示动作相匹配的动作奖赏 + 1，而其它动作奖赏为 0，引进 Soft-Q-Learning 算法，提出了适用于高维、接连、动态环境的仿照学习算法。

依据行为克隆的规范办法是运用监督学习来贪婪地仿照演示的动作，而不推理动作的成果。由此发生的复合过错或许会导致 agent 逐渐违背了所演示的状况。因而，行为克隆面对的最大问题是，当 agent 违背到规范散布之外的状况时，agent 不知道怎么回到所规范的演示状况。

为了处理这个问题，该论文运用生成对立网络（generative adversarial imitation learning，GAIL）引进行为克隆的基本思维便是练习 agent 不只要仿照演示的动作，而且要拜访演示的状况。

直观地讲，对立式办法经过为 agent 供给（1）在演示状况下仿照演示举动的鼓舞，以及（2）在遇到新的、散布外的状况时采纳引导其回到演示状况的举动的鼓舞来鼓舞长时段的仿照（Long-horizon imitation）。本文所提出的办法是在不进行对立性练习的状况下完结 (1) 和(2)，即运用稳定的奖赏（Constant Reward）代替学习的奖赏。

3.1 办法描绘

本文运用 Soft-Q Learning（SQIL）来实例化办法[6]，运用专家演示来初始化署理的经历回忆缓存区，在演示经历中设置奖赏为常数 r=+1，在 agent 与环境交互时搜集的一切新经历中设置奖赏为常数 r=0。此外，因为 SQIL 并没有采纳战略强化型学习，所以 agent 不必定要拜访演示状况才干取得活跃的奖赏。相反，agent 不能自制经过重播开始添加到其经历回忆缓存区中的演示来取得活跃奖赏。因而，SQIL 不能自制用于高维、接连的随机环境中。详细 SQIL 的算法流程见算法 1：

其间 δ^2 核算公式为：

δ^2 标明平方软贝尔曼差错（soft Bellman error），Q_θ标明 Soft Q 函数。r 为不依赖于状况或动作的常数。作者在文章中证明了 SQIL 适当于行为克隆的一种变体，它运用正则化来战胜状况散布的改变。SQIL 适当于在行为克隆的根底上添加了一个正则化项，将状况转化为动态信息归入到仿照战略中，然后完结长时段仿照。作者对这个观念进行了进一步证明：

在具有接连状况空间 S 和离散举动空间 A 的无限边沿马尔科夫决议计划进程 (infinite-horizon Markov Decision Process，MDP) 中，假定专家遵从的方针 Π 不能自制最大化奖赏 R(s；a)。方针 Π 构成依据动作 actions 的波茨曼散布（Boltzmann distribution）

其间，Q 标明 Soft Q 函数，给定软贝尔曼差错，Q 值为奖赏和动态改变的函数值：

在本文的的仿照使命环境（imitation setting）中，奖赏和动态改变都是不知道的。专家经过在环境中推演方针并发生状况转化（s,a,s’）∈D_demo，生成一组固定的演示 D_demo。

用规范行为克隆练习仿照战略，适当于拟合一个参数模型，使负对数似然丢失最小化：

本文运用一个 Soft Q 函数 Q_θ来标明方针，而不直接显式地对方针进行建模：

由此，不能自制经过最大似然方针函数练习 Q_θ：

3.2 试验剖析

本文在四个依据图画的游戏—赛车（Car Racing）、Pong、Breakout 和太空入侵者（Space Invaders）—以及三个依据状况的使命—Humanoid、HalfCheetah 和 Lunar Lander 上对 SQIL 与基线算法 BC 和 GAIL 进行了试验。

表 1 中的成果显现，当初始状况没有改变时，SQIL 和行为克隆（BC）的表现相同好。该使命十分简略，即便 BC 也能取得高额奖赏。在无扰动条件下（右列），尽管 BC 有众所周知的缺陷，但 BC 的表现仍大幅超越 GAIL。这标明 GAIL 中的对立式优化会大幅阻止学习。当从 S_0^train 开端时，SQIL 的表现比 BC 好得多，标明 SQIL 不能自制泛化到新的初始状况散布，而 BC 不能。

表 1. 练习后 100 集的均匀奖赏

图 1. 依据图画的使命成果

图 1 给出了几个依据图画的使命成果。图 1 中的成果显现，SQIL 在 Pong、Breakout 和 Space Invaders 上的表现优于 BC。BC 存在复合差错，而 SQIL 则没有。

图 2 给出在低维 MuJoCo 中完结接连操控的 SQIL 实例。这个 SQIL 的实例与 MuJoCo 的 Humanoid（17 DoF）和 HalfCheetah（6 DoF）使命的 GAIL 进行了比较。成果显现，SQIL 在这两个使命上的表现都优于 BC，而且与 GAIL 的表现适当，这阐明 SQIL 不能自制成功地布置在具有接连动作的问题上，而且 SQIL 即便在少数演示的状况下也能表现杰出。

图 2. SQIL：接连 10 次练习的最佳表现

3.3 文章小结

本文作者在文章的定论部分对 SQIL 的喜欢进行了小结。作者标明，本文没有证明 SQIL 是否与专家的状况占有率相匹配，作者未来喜欢的将会测验验证 SQIL 是否具有这一特性。此外，后续研讨的另一个方向是运用 SQIL 来康复奖赏函数。例如，经过运用一个参数化的奖赏函数，以软贝尔曼差错项来仿照奖赏，而不是运用稳定奖赏。这不能自制为现有的对立式逆增强学习（inverse Reinforcement Learning， IRL）算法供给一个更简略的代替计划。

4. 课程学习（Curriculum Learning）

论文：Automated curricula through setter-solver interactions

论文地址：https://arxiv.org/pdf/1909.12892.pdf

课程学习是一种从简略概念到杂乱问题逐渐学习的办法，1993 年，RNN 的开山祖师 Jeffrey Elman 初次提出了选用课程学习的办法来练习神经网络。在他的文章中[1]，Jeffrey Elman 提到「人类在许多方面与其他物种不同，但有两个方面特别值得注意：人类具有超乎寻常的学习才干，以及，人类抵达老练所需的时刻特别长。人类学习的习惯性优势是显着的，不能自制说，学习为行为的非遗传性传承发明了根底，这或许会加快不露锋芒物种的进化。」

本文是 ICLR 2020 中的一篇文章。文章将课程学习仿照人类教育依赖于课程的概念，经过将使命分解为更简略、静态的应战，并给予密布的奖赏，然后建立起杂乱的行为。尽管课程对 agent 也很有用，但手艺制造课程很耗时。本文探究在丰厚的动态环境中主动生成课程。运用设定者 - 求解者（setter-solver）范式，展现了考虑方针有用性、方针可行性和方针掩盖率对构建有用课程的重要性。

4.1 办法描绘

本文模型由三个首要部分组成：解算器（Solver） - 用来练习的方针条件 agent；设定器（Setter，S）—用来为 agent 生成方针课程的生成模型；判别器（Judge，J）—不能自制猜测 agent 现在方针可行性的判别模型。练习机制见图 1。解算器 agent 运用散布式学习设置对设置者生成的方针进行练习，以核算战略梯度。关于设定器练习来说，有三个概念很重要：方针有用性、方针可行性和方针掩盖率。假如存在一个解算器 agent 战略，它完结这个方针的概率对错零，则称这个方针是有用的。这个概念与解算器的现行方针无关。可行性表达了方针现在是否不能自制由解算器完结。详细来说，假如解算器完结方针的概率为 f，则称该方针具有可行性 f∈[0,1]。因而，可行性方针的调集将跟着解算器的学习而演化。判别器是一个可行性的学习模型，经过监督学习对解算器的成果进行练习。终究，方针掩盖率标明设定器发生的方针的可变性（熵）。

图 1. 练习机制

4.1.1 解算器（Solver）的奖赏和丢失

在每个周期开端时，agent 会收到一个由设定器采样的方针 g，并在周期完毕时取得一个单一的奖赏 R_g。假如解算器完结了方针，则奖赏 R_g 为 1，假如在固定的最大时刻后没有完结方针，则奖赏 R_g 为 0。不能自制用任何 RL 算法来练习该解算器。

4.1.2 判别器（Judge）的丢失

判别器被练习成一个二元分类器来猜测奖赏。本文运用穿插熵丢失函数来练习判别器，输入散布则由设定器界说，标签是经过在这些方针上测验解算器取得的：

4.1.3 设定器（Setter）的丢失

本文为设定器界说了三种丢失，表现了方针有用性、可行性和掩盖率的概念。

有用性（Validity）：描绘为不能自制添加设定器生成解算器现已完结的方针的概率的生成性丢失，详细为：

其间，g 是解算器完结的方针中的样本，不论它在该周期中的使命是什么。ξ 是少数的噪声，以防止过度拟合。p() 标明在固定的高斯先验常识下对 S 的潜在状况进行抽样的概率。

可行性（Feasibility）：描绘鼓舞设定器挑选与判别器当时对解算器的可行性估量最为匹配的方针的丢失，详细为：

该丢失均匀地采样一个期望的可行性 f（以练习设定器在必定难度范围内供给方针），然后企图使设定器发生判别器评定为与该期望可行性相匹配的方针。

掩盖率（Coverage）：描绘鼓舞设定器挑选愈加多样化方针的丢失。该丢失有助于使设定器掩盖尽或许多的方针空间。详细为：

该丢失使设定器的条件熵的均匀值最大化。设置器被练习成使总丢失最小化

4.2 试验剖析

本文所选用的试验环境为：

（1）三维寻色（3D color finding）。一个用 Unity（http://unity3d.com）构建的半实践的 3D 环境，由一个包含五颜六色物体和家具的房间组成（图 2a）。agent 不能自制移动和检查周围的状况，并不能自制拿起、操作和放下物体。这就构成了一个杂乱的 46 维举动空间。在每个周期开端时，物体和家具被随机放置在房间周围。agent 收到一种色彩（或一对色彩）作为方针，假如在其视图中心的一个 patch（或两个相邻的 patch）包含挨近这个方针的均匀色彩，就会得到奖赏。本文还运用了这种环境的一个扩展版别，其间房间的墙面、天花板和地板，以及一切的物体，都被程序化地从头上色成每个周期随机挑选的两种色彩之一（图 2b）。

（2）网格国际的炼金术（Grid-world alchemy）。二维网格国际环境，包含各种双色物体（图 2c）。每个周期对物体的色彩随机取样。解算器不能自制在网格中移动，并不能自制走过一个物体来拾取它。它一旦拿起一个物体，就无法放下。假如它现已携带了另一个方针，两个方针将体系性地组合成一个新的方针。解算器接纳一个方针方针作为输入，假如它发生一个相似的方针，就会得到奖赏。

在每个试验中，不论运用什么设置器进行练习，作者都在一个固定的使命测验散布上进行点评，以便在不同条件下有一个公正的比较。在这两种环境中，有用使命的空间（不能自制由专家完结）在设定器可表达的使命空间中占有很小的体积。

图 2. 试验环境

在杂乱的使命环境中，经过依据难度的探究来发现期望的行为或许并不行行。一个使命或许有许多困难的办法，其间大部分与终究期望署理完结的方针无关。经过针对期望方针散布与期望方针丢失，设定器不能自制推进解算器更高效地把握期望使命（图 3a）。作者首要在 3D 寻色环境中进行探究。试验方针是 12 种亮色对的散布。在没有设定器的状况下发现这些亮色对是十分困难的。因而，只对期望的散布进行练习的成果是没有学习。无方针的 setter-solver 设置终究不能自制学习这些使命。在炼金术使命中，状况有些不同（图 3b）。

本文试验所挑选的散布是困难的使命：该散布包含了房间中一半的物体。可是，因为设定器面对着学习条件生成散布（它是内置在期望散布中的）的困难应战，作者发现从期望散布中学习（假如有的话）会导致更早的学习。这也再次强调了学习生成方针的杂乱性，特别是当有用的方针散布是以杂乱的、非线性的办法存在于环境状况中时。

图 3. 在已知方针散布的状况下的抱负方针散布。((b)和 (c) 的功用别离是曩昔 5000 次和 1000 次试验的均匀数)。

4.3 试验成果

本文经过理论剖析和试验验证了 setter-solver 办法的有用性，以及使其不能自制在不同环境的杂乱使命中喜欢的扩展。本文的喜欢是这一思维的起点，作者以为，本文概述的战略是一个十分有意义的研讨方向，有期望不能自制完结在日益杂乱的使命中主动规划 agent 的学习课程。

二、改善模型

5. 分层强化学习（Hierarchical Reinforcement Learning）

论文：Hierarchical Reinforcement Learning with Advantage-Based Auxiliary Rewards

论文地址：https://papers.nips.cc/paper/8421-hierarchical-reinforcement-learning-with-advantage-based-auxiliary-rewards.pdf

本文为 NeurIPS 2019 中的一篇文章，首要介绍了一种分层强化学习的结构。

分层强化学习（Hierarchical Reinforcement Learning，HRL）是一种用于处理具有稀少和推迟奖赏的长时段问题（Long-horizon problems）的有用办法。

本文提出了一个引进依据先进函数的辅佐奖赏的 HRL 结构（HRL with Advantage function-based Auxiliary Rewards，HAAR），HAAR 不能自制依据高层方针的优势函数对低层技术练习设置辅佐奖赏。引进这种辅佐奖赏，不能自制完结在不运用特定使命常识的状况下，高效、同步地学习高层方针和低层技术。

5.1 办法描绘

图 1. HAAR 示意图

图 1 给出了 HAAR 的喜欢流程。在 i 时刻，agent 的状况(s_i)^h 采纳了一个运用独热向量（one-hot vector）表征的高层动作(a_i)^h。π_l 为运用动作 (a_i)^h 和状况 (s_i)^l 作为输入的神经网络，输出一个低层动作 (a_i)^l。不同的低层技术标明为 (a_i)^h 别离输入到该神经网络中。神经网络 π_l 不能自制表征低层技术。选中的低层技术履行 k 个进程：

之后，高层方针输出新的动作。高层奖赏(r_t)^h 为 k 个进程的环境反应累积值：

依据高层的先进函数的核算低层奖赏(r_t)^l。HAAR 的算法如下：

在每一轮迭代进程中，首要经过运转联合战略 π_joint 对一批 T 个低层时刻步长进行抽样调查（算法 1 第五行）。之后，核算辅佐奖赏 (r_t)^l 并替换环境反应的奖赏 r_t（算法 1 第六行）。终究，运用可信区域方针优化（Trust Region Policy Optimization，TRPO）算法[7] 更新 π_h 和 π_l（算法 1 第七、八行）。

单靠稀少的环境奖赏很难供给满足的监督以使低层技术习惯下流使命。本文引进高层优势函数（high-level advantage function）设置低层技术的辅佐奖赏。针对状况 (s_t)^h 的动作 (a_t)^h 的函数界说为：

为了鼓舞选定的低层技术不能自制抵达数值较大的状况，本文将估量的高层优势函数设置为对低层技术的辅佐奖赏。

为了简化核算，本文对优势函数进行一步预算（one-step estimation）。因为低层的技术是使命无关的（task-agnostic）且不区别高层状况，本文将总的辅佐奖赏均匀分配给每一个低层步长：

这种辅佐奖赏功用的直观解说是，当技术的时刻扩展履即将稀少的环境奖赏快速备份到高层状况时，不能自制运用高层值函数来辅导低层技术的学习。此外，作者在文中还证明了 HAAR 保留了用于每一层级练习的优化算法的单调性，而且单调地改善了联合战略。

5.2 试验剖析

本文运用文献 [8] 提出的基准分层使命进行试验。试验规划的调查空间使得低层技术不受使命的约束，而高层的方针则尽或许的更具普遍性。低层只能拜访 agent 存储在 s_l 中的关节视点。这种低层调查的挑选需求在预练习阶段取得最少的范畴常识，这样才干将技术成功搬迁到不同的范畴调会集。与其他 HRL 试验不同，agent 无法拜访任何直接显现其肯定坐标的信息（x、y 坐标或自顶向下的视图，如 HRL 研讨试验中常用的那样）。这使得本文试验中的使命对 agent 来说更难，但缺不能自制减轻对环境的过度习惯，并向 π_h 和 π_l 引进潜在的可搬迁性。

图 2 给出了本文试验环境的图示。其间，图 2（a）为蚂蚁迷宫（Ant Maze）。蚂蚁抵达如图 2（a）所示的迷宫中的指定方位会得到奖赏，随机化蚂蚁的开始方位以取得均匀的状况采样；图 2（b）为游水者迷宫（Swimmer Maze）。游水者在如图 2（b）所示的迷宫中抵达方针方位时将取得奖赏；图 2（c）为蚂蚁调集（Ant Gather）。蚂蚁因搜集散布在有限区域的食物而遭到奖赏，一同因触碰炸弹而遭到赏罚。

图 2. 本文用的环境调集

作者运用几个作用较好的 HRL 办法作为基线办法进行比照试验，包含：SNN4HRL[9]、HAC[10]、HIRO[11]和非分层办法 TPRO[7]。

由图 3 的试验成果不能自制看出，HAAR 显着优于其它基线办法。一切曲线的成果取超越 5 次的均匀值，暗影差错条标明 95% 的置信区间。SNN4HRL 在游水者迷宫使命中的成功率高于蚂蚁迷宫使命，这是因为即便低层的技术没有得到很好的调整，游水者也不会被绊倒。可是，在游水者迷宫中，HAAR 依然优于 SNN4HRL。在不到 200 次迭代之后，HAAR 抵达了简直 100% 的成功率。

蚂蚁搜集使命面对的首要应战不是稀少的奖赏，而是问题的杂乱性，因为蚂蚁搜集使命中的奖赏比迷宫环境中的奖赏要密布得多。尽管如此，HAAR 依然取得了比基准算法更好的成果。这标明，HAAR 尽管开始是为稀少奖赏使命规划的，但也不能自制运用于其他场景。TRPO 自身对错层的，不适用于长时刻稀少奖赏问题。TRPO 在一切迷宫使命中的成功率简直为零。在蚂蚁搜集使命中，TRPO 的均匀报答率有所上升，这是因为蚂蚁机器人学会了坚持停止，而不会因为接纳到逝世奖赏 - 10 而跌倒。

图 3. 蚂蚁迷宫、游水者迷宫和蚂蚁调集使命的成功率或均匀报答率的学习曲线。

为了进一步展现 HAAR 与其他最先进的 HRL 办法比较是怎么取得如此优异的功用，作者对上述试验成果进行了更深化的研讨。在图 4 中，作者比较了蚂蚁迷宫使命练习前后的低层技术。在图 4 中，（a）和（b）别离展现了在练习前后搜集的一批低层技术经历。蚂蚁总是在中心进行初始化，并运用单一技术在恣意时刻内行走。比较（b）和（a），不露锋芒注意到蚂蚁学会了右转（黄色的技术 1）和行进（赤色的技术 0），而且在（c）的迷宫使命中很好地运用了这两种技术。

图 4：（a）蚂蚁初始低层技术的可视化图，（b）蚂蚁迷宫辅佐奖赏练习后的低层技术，（c）在蚂蚁迷宫顶用 HAAR 练习蚂蚁后的样本轨道。

5.3 文章小结

本文运用 TRPO 进行在线战略练习，样本功率不高，核算才干成为 HAAR 在十分杂乱的环境下运用的首要瓶颈。将非方针性练习与本文提出的层级结构结合起来或许有助于进步样本功率。因为低层技术初始化计划对功用有着明显的影响，探究低层技术初始化计划的最佳喜欢办法也是未来的研讨方向。

6. 元学习（Meta-Learning）

论文：Learning to Generalize from Sparse and Underspecified Rewards

论文地址：https://arxiv.org/pdf/1902.07198.pdf

本文是 Google AI 最新发布的一篇文章。本文提出了一种元奖赏学习（Meta Reward Learning, MeRL）来处理未指定奖赏缺乏的问题。MeRL 经过优化辅佐奖赏函数向 agent 供给更精密的反应。MeRL 引进了一个用于保存成功轨道（Successful trajectory）的回忆缓存，运用一种新的探究战略来学习稀少奖赏。MeRL 在不运用任何专家演示的状况下主动学习辅佐奖赏函数，使其不能自制取得更广泛的运用，这有别于以往的奖赏学习办法（例如上一篇剖析的文章）。

6.1 办法剖析

本文要点研讨语义剖析中的弱监督问题，其方针是从问答对中主动发现逻辑程序，而不需求任何办法的程序监督。例如，给定一个问题「哪个国家取得银牌最多？」和一个相关的 Wikipedia 表，agent 需求不能自制生成一个相似 SQL 的程序来得到正确的答案（即「Nigeria」）。

图 1. 算法图示

MeRL 在处理未指定奖赏时的思路是：完结意外成功的虚伪轨道和程序对 agent 的泛化功用是有害的。为了处理这一问题，MeRL 优化了一个愈加杂乱的辅佐奖赏函数，该函数不能自制依据动作轨道的特征区别意外成功和有意图成功。经过元学习，在坚持验证集上最大化练习署理的功用，优化辅佐奖赏。图 2 为 MeRL 的原理图示。

图 2. MeRL 原理图：运用辅佐奖赏模型得到的奖赏信号练习 agent，运用 agent 的泛化差错练习辅佐奖赏。

图 2 标明，智能体在学习进程中应该不能自制学习一个辅佐的奖赏函数，这个函数是依据在一个坚持有用的调集上（包含元学习奖赏、环境和智能体自身的奖赏）都能运用该奖赏函数练习的杰出的战略。换言之，不露锋芒期望学习到有助于方针更好地推行的奖赏功用。

本文提出了两种详细的办法来完结这一思维。(1) 依据依据梯度的 MetaLearning (MAML) (Finn et al., 2017)（算法 1）[2]（关于 MAML 算法不露锋芒也有介绍）；(2) 运用 BayesOpt (Snoek et al., 2012) 作为无梯度黑盒优化器（算法 2）[3]。运用经典 MAML 完结的办法记做 MeRL。作者将运用 BayesOpt 优化算法的办法记做（Bayesian Optimization Reward-Learning， BoRL）。

首要，不露锋芒来介绍 MeRL 办法。MeRL 的完好算法如下：

在 MeRL 的每次迭代中，一同更新战略参数 θ 和辅佐奖赏参数。练习战略 π_θ 以最大化方针函数：

运用练习数据集和辅佐奖赏优化该方针函数，以使验证数据集上的元练习方针 O_val 最大化

MeRL 要求 O_val 可微。为了处理这个问题，本文只运用缓冲区(B_val)^+ 中包含 D_val 上下文成功轨道的样原本核算 O_val。因为无法拜访实在程序(ground truth programs)，在非交互环境中运用波束查找（Beam Search）、在交互环境中运用贪婪解码，运用未指定奖赏的练习战略生成成功的轨道。验证方针是运用练习方针上一个梯度进程更新后取得的战略核算的，因而，辅佐奖赏经过更新的战略参数 θ' 影响验证方针，如下所示：

其次，不露锋芒介绍 BoRL。BoRL 算法的完好流程如下：

在 BoRL 的每次试验中，经过最大化运用验证方针上的后验散布核算的获取函数来采样辅佐奖赏参数。在对奖赏参数进行采样后，在固定迭代次数下优化练习数据集上的 O_RER 方针。练习完毕后，在验证数据集上点评战略，以更新后验散布。BoRL 不要求验证方针函数 O_val 相关于辅佐奖赏参数是可微的，因而不能自制直接优化所关怀的点评方针。

BoRL 比 MeRL 更具灵活性，因为不能自制运用 BoRL 优化验证会集的任何不行微方针，但 MeRL 只能用于可微方针。BoRL 算法相关于 MeRL 算法的另一个长处是，与依据部分梯度的优化算法比较，它对奖赏参数进行大局优化。可是，因为不能自制拜访要优化的方针的梯度，MeRL 比 BoRL 在核算功率上要高得多。此外，MeRL 不能自制在整个战略优化进程中习惯辅佐奖赏，而 BoRL 只能表达在战略优化进程中坚持不变的奖赏函数。

6.2 试验剖析

作者在两个弱监督语义剖析基准使命 WIKITABLEQUESTIONS[12]和 WIKISQL[13]上点评了本文办法。用一个简略的指令盯梢环境进行试验，这个环境是一个巨细为 NxN 的简略迷宫，迷宫中随机散布着 K 个丧命圈套。坐落迷宫四角之一的球门。详细如图 3。向盲 agent 输入一系列（左、右、上、下）指令。它勾勒出一条最优途径，agent 不能自制经过该途径抵达方针而不被困住。假如 agent 在必定数量的进程内成功抵达方针，则它将取得 1 的奖赏，否则为 0。

图 3. 简略迷宫中的指令

表 1. WIKITABLEQUESTIONS 上的成果

表 2. 在 WIKISQL 上只运用弱监督的成果

表 1 和表 2 别离给出了两个基准使命上的试验成果。比照算法包含 MAPO[14]以及 MAPOX（IML 的勘探才干与 MAPO 的泛化才干相结合）。MeRL 在 WikiTableQuestions 和 WikiSQL 基准上的试验别离比曾经的喜欢进步了 1.2% 和 2.4%。经过履行更好的探究，MAPOX 在两个数据集上的作用都优于 MAPO。此外，MeRL 和 BoRL 在 WIKITABLEQUESTIONS 中的作用都优于 MAPOX。

6.3 文章小结

规划区别最优和次优行为的奖赏函数关于将 RL 运用于实践运用是至关重要的。本文的研讨朝着无需任何人监督的奖赏函数建模方向迈出了一小步。在今后的喜欢中，作者期望从主动学习密布奖赏函数的视点来处理 RL 中的信誉分配问题。

三、本文总结

从本文挑选的几篇文章不能自制看出，运用数据改善稀少奖赏下 agent 学习的办法大多仍是经过不同的办法改善或许引进新的奖赏。例如，对奖赏进行重塑（第二种办法）、规划新的奖赏模块（榜首种办法），以及引进新的奖赏学习的办法（第三种办法和第四种办法）等等。而直接改善模型的办法则是直接从头规划经典的 RL 学习模型或结构，例如将其改变为多层的结构（第五种办法）或引进元学习的理念（第六种办法）等等。

针对稀少奖赏下的强化学习关于强化学习在工业场景中的实践运用有着重要意义，在不同的使命中运用哪种办法或哪些办法的组合不能自制取得更好的作用，值得愈加深化的研讨和探究。

参考文献

[1] Elman J L . Learning and development in neural networks: The importance of starting small[J]. Cognition, 1993, 48(1):71-99. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.128.4487&rep=rep1&type=pdf

[2] Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast adaptation of deep networks. In Proceedings of the 34th International Conference on Machine Learning (ICML), 2017.

[3] Jasper Snoek, Hugo Larochelle, and Ryan Adams. Practical Bayesian optimization of machine learning algorithms. In NIPS, pages 2960–2968, 2012.

[4] Deepak Pathak, Pulkit Agrawal, Alexei A Efros, and Trevor Darrell. Curiosity-driven exploration by self-supervised prediction. In International Conference on Machine Learning (ICML), volume 2017, 2017.

[5] Andrea Zanette and Emma Brunskill. Tighter problem-dependent regret bounds in reinforcement learning

without domain knowledge using value function bounds. arXiv preprint arXiv:1901.00210, 2019.

[6] Tuomas Haarnoja, Haoran Tang, Pieter Abbeel, and Sergey Levine. Reinforcement learning with deep energybased

policies. arXiv preprint arXiv:1702.08165, 2017.

[7] John Schulman, Sergey Levine, Philipp Moritz, Michael I. Jordan, and Pieter Abbeel. Trust region policy optimization. In ICML, 2015.

[8] Yan Duan, Xi Chen, Rein Houthooft, John Schulman, and Pieter Abbeel. Benchmarking deep reinforcement learning for continuous control. arXiv e-prints, page arXiv:1604.06778, Apr 2016.

[9] Carlos Florensa, Yan Duan, and Pieter Abbeel. Stochastic neural networks for hierarchical reinforcement learning. In Proceedings of The 34th International Conference on Machine Learning, 2017.

[10] Andrew Levy, George Konidaris, Robert Platt, and Kate Saenko. Learning multi-level hierarchies with hindsight. 2018.

[11] Ofir Nachum, Shixiang (Shane) Gu, Honglak Lee, and Sergey Levine. Data-efficient hierarchical reinforcement learning. In Advances in Neural Information Processing Systems 31, pages 3303–3313. 2018.

[12] Pasupat, P. and Liang, P. Compositional semantic parsing on semi-structured tables. ACL, 2015.

[13] Zhong, V., Xiong, C., and Socher, R. Seq2sql: Generating structured queries from natural language using reinforcement

learning. arXiv:1709.00103, 2017.

[14] Liang, C., Norouzi, M., Berant, J., Le, Q. V., and Lao, N. Memory augmented policy optimization for program

synthesis and semantic parsing. In Bengio, S., Wallach, H., Larochelle, H., Grauman, K., Cesa-Bianchi, N., and Garnett, R. (eds.), Advances in Neural Information Processing Systems 31, pp. 9994–10006. 2018.

剖析师介绍：

本文作者为仵冀颖，工学博士，结业于北京交通大学，曾别离于香港中文大学和香港科技大学担任助理研讨员和研讨助理，现从事电子政务范畴信息化新技术研讨喜欢。首要研讨方向为模式识别、核算机视觉，喜好科研，期望能坚持学习、不断进步。

告发/反应