强化学习

更新于 2018-03-23 分类： Research 阅读次数：本文字数： 913 阅读时长 ≈ 3 分钟

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。

人们一般认为机器学习拥有三根重要的柱石：非监督学习、监督学习、强化学习，这三个部分基本上包含了机器学习研究与应用的方方面面。在非监督学习中，算法的目标是对数据进行有效的归纳总结，我们可以把这一过程视为模型将输入的x数据转换为了可以归纳表示输入信息的低维度输出z。而对于监督学习来说、我们需要通过输入数据x预测出输出数据的某一特征y，这是我们最为熟悉的机器学习方法了，主要包括回归和分类两大分支。而对于强化学习来说，对于特定的输入x对应着两个输出分别是action和reward。强化学习的目标就是在给定输入的情况下尽可能地选择出能使r（奖励）最大的a（行为）。有很多问题可以用强化学习来解决，从游戏中的在线决策到网络世界中的最大化收益都可以通过这样的方式来获取较好的解决方案。

在An Outsider’s Tour of Reinforcement Learning（中文）里作者将强化学习归结成了一种预测分析的模式，而在随后的文章里则是以优化控制的形式展开的。

描述性分析指的是通过归纳数据使其具有更好的可解释性，非监督学习就是一种很好的描述性分析方法，而预测分析的目标则是基于现在的数据估计未来的结果，而最终的规范性分析(prescriptive analytics)则旨在指导行动以保证结果。强化学习恰恰就属于最后一个范畴。而最大的挑战则来自于规范性分析。这一类模型的目标十分清晰：强化学习和规范性分析需要分析输入并决定要采取的行动和明确对应的奖励。规范性分析所面对的新数据来源于不确定的环境中，随后需要作出决策并利用这些决策影响环境。这样的系统会在好的决策下获得丰厚的奖励，而在糟糕的决策后则面临着灾难性的结果。但由于反馈来源于复杂的相互联系中使其在理论上难以研究。

强化学习令人不解的原因主要在于它需要我们利用一种在通常机器学习中不常用的核心概念去思考。首先你需要考虑时变的统计学模型并理解数据中的依赖只是暂时的相关而已；第二、你应该理解统计学习问题中的反馈效应，每一次行为后对于结果的观测分布，强化学习系统必须适应这些分布。