kl800.com省心范文网

开题报告提交版

摘要
强化学习是机器学习的一个重要分支,它是一种以环境反馈作为输入的,特 殊的、适应环境的学习。它将环境抽象成若干状态,通过不断试错强化而产生状 态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知, 因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢,因此如 何能够优化的建立环境模型, 如何提高算法效率就成为强化学习面临的主要问题。 本次课题首先介绍强化学习的概念、建立系统模型,再介绍几种经典的强化学习 算法, 接着介绍目前解决若干问题而提出的 POMDP 模型, PSR 模型、 HRL 模型, 最后就 PSR 模型进行算法改进。 关键词:强化学习;蒙特卡诺法; 算法; 学习; 学习; 模型; 关键词 强化学习;蒙特卡诺法;TD 算法;Q 学习;Sasar 学习;POMDP 模型; 强化学习 PSR 模型 ;HRL 模型

强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的,在人工智能、机 器学习和自动控制等领域中得到广泛的研究和应用, 并被认为是设计智能系统的核心技术之 一。 一.强化学习的理论基础: 1.强化学习问题的框架: 我们将有智能的学习体称为 agent, 将系统分成若干个状态, 每个状态 S 可以有不同 的动作选择,对应的每个选择也就有一个值函数 Q(s,a) 。Agent 选择一个动作 a 作用于 环境,环境接收该动作后状态发生变化(S’),同时产生一个强化信号 r(奖赏)给 agent, agent 根据这个奖赏评价刚才的动作的好坏进而修改该动作值,并选择下一动作 a’。 对于 一个强化学习系统来讲,其目标是学习一个行为策略:π:S->A,使系统选择的动作能 够获得环境奖赏的累计值Σr 最大。当一个动作导致环境给正的奖赏时这种动作的趋势 就被加强,反之则减弱。强化学习的目的就是要学习从状态到动作的最佳映射,以便使 奖励信号最大化。 【10,11】 强化学习的框架如图:

新状态S’

环境

状态S 奖惩反馈r 强化学习系统

动作a

2.环境的描述: 通常,我们从五个角度对环境进行分析: 【4】 角度一:离散状态 vs 连续状态 角度二:状态完全可感知 vs 状态部分可感知 角度三:插曲式 vs 非插曲式 角度四:确定性 vs 不确定性 角度五:静态 vs 动态 在强化学习中,我们首先考虑最简单的环境模型随机、离散状态、离散时间对其数 学建模。我们通常用马尔科夫模型: 马尔科夫状态:一个状态信号保留了所有的相关信息,则就是马儿科夫的。 马儿科夫决策过程(MDP) 【2】 MDP 的本质是:当状态向下一状态转移的概率 : 和奖赏值只取决于当前状态和选择的动作,而与历史状态和动作无关。强化学习主要研 究在 P 和 R 函数未知的情况下系统如何学习最优的行为策略。 用 rt+1 表示 t 时刻的即时奖赏【7】 ,用 Rt 表示 t 时刻的累计奖赏,则 Rt 为 t 时刻开 始到最后的所有奖赏和,而越后续的动作对当前影响要比 t 时刻奖赏逐渐减小,因此越 往后的奖赏加上了一个折扣γ,这样,t 时刻的奖赏总和就是 Rt=rt+1+γrt+2+γ2rt+3+… (1) =rt+1+γRt+1 t 时刻状态 s 的状态值(表示状态 s 如何优秀)用 V (s)表示,它用 t 时刻选择各个 动作的奖赏的数学期望来表示。 V (s)=E {Rt|st=s} =E {rt+1+γV(st+1)|st=s} =
π π π π

∑π(s, a)∑ P
a s'

a ss '

a [ Rss ' +γV (s’)]

π

(2)

注意到这里两式都是一个递推式,称为 Bellman 等式,写成这种形式非常便于从状 态 s 转换到 s’时计算状态值。 强化学习问题是要寻求一个最优的策略π*,在上面的等式中表现为寻求状态值的 最优值,在不断学习强化的过程中对状态 s 获得一个最优值 V*(s) ,它表示在状态 s 下 选取最优的那个动作而获得的最大的累计奖赏回报。因此在最优策略π*下,状态 s 的 最优值定义为: * V (s) = max E {rt+1+γV(st+1)|st=s}
a∈ A( s )

= max

a∈ A( s )

∑P
s'

a ss '

a [ Rss ' +γV (s’)]

π

(3)

各种算法的最终目的便是计算各状态的最优值,并根据最优值去指导动作。 二. 经典的强化学习算法回顾: 1. 动态规划算法【1】 : 动态规划的思想,根据 2 式去不断由 V(s’)估计 V(s)的值,估计完成后下一次可以继 续选择最优的动作,这样迭代到一定程度后算法收敛,每个 V(s)都会收敛到一个稳定 值,从而学习到一个最优的策略。

用公式表示为: Vk+1 (s)=E {Rt|st=s} =E {rt+1+γV(st+1)|st=s} =
π π

∑π(s, a)∑ P
a s'

a ss '

a [ Rss ' +γVk (s’)]

(4)

2. 蒙特卡诺算法: 在强化学习中, 和 R 开始都是未知的, P 系统无法直接通过(4)式进行值函数的估计, 因此常常是是在完整的学习一次后才将学习中各步的奖赏累计用于计算经过的状态 的值函数估计。称为蒙特卡诺方法。如式(5) ,保持π策略不变,在每次学习循环中 重复的使用(5)式,将(5)式逼近于(3)式。 V(st)<-V(st)+α[Rt-V(st)] (5) 3. TD 算法: 【13】 结合动态规划和蒙特卡诺算法,Sutton 提出基于时间差分的 TD 算法,它在每一 步的学习中利用下式更新状态值: (6) V(st)<-V(st)+ α[rt+1+γV(st+1)-V(st)] TD 法是一类专门用于预测问题的渐进学习过程,传统的学习预测方法是由预测 值和实际值之间的误差来修正参数的,而 TD 法是由相继预测间的误差值来完成的, 当随着时间的推移预测有变化时就进行学习。 三.强化学习面临的主要问题 我们上面讨论的强化学习模型是最简单的有限状态、离散状态、离散时间模型,而 实际应用中环境比这种模型复杂得多, 尤其在状态数增多后经典的强化学习算法便会面 临维数灾难【12】 ,另外马尔科夫模型是假设所有状态都已经知道,而实际上在学习过 程中会出现新的未知状态,这时为非马尔科夫模型【6】……这些问题用经典的数学模 型状态将无法实现。 目前强化学习的主要问题就是如何寻找新的数学模型, 来实现环境 状态的未知和维数爆炸等问题。 四.当前强化学习研究动态 目前强化学习的研究主要集中在解决非马尔科夫模型和解决维数爆炸问题等.本文 着重介绍 POMDP 模型、HRL 模型以及由 POMDP 模型衍生的 PSR 模型等。 1. 部分感知状态马尔科夫模型(POMDP)——解决非马尔科夫环境问题: 在经典马尔科夫模型上增加状态预测, 并对每个状态设置一个信度 b, 用于表示该状 态的可信度,在决定动作时使用 b 作为依据,同时根据观察值进行状态预测,这样 很好的解决一些非马尔科夫模型。

2. 分层强化学习模型(HRL)——解决维数爆炸问题: 目前解决“维数灾难”问题方法大致有四种:状态聚类法【14】 、有限策略空间 搜索法【15】 、值函数近似法【16】 、和分层强化学习【12】 分层强化学习是通过在强化学习的基础上增加“抽象”机制,把整体任务分解 为不同层次上的子任务,使每个子任务在规模较小的子空间中求解,并且求得的子 任务策略可以复用,从而加快问题的求解速度。 五.我的观点 无论是传统的马尔科夫模型还是最新的 POMDP、 HRL 理论,并没有哪一个算法可 以适用于所有场合,它们都只是在某个特定的环境中有其特长。为此,我们的工作就是 分析每个算法的优缺点,通过比较了解各个算法的使用场合。 六.参考文献: 【1】R.S.Sutton and A.G.Barto. Reinforcement Learning[M]. London:MIT press ,1998. 【2】Kaelbling L P,Littman M L,Moore A W. Reinforcement Learning: A survey. Journal of Artificial Intelligence Research,1996,4:237~285 【3】Sutton R S,Barto A G. Reinforcement Learning, Cambridge,MA:The MIT Press,1998 【4】Gerhard Weiss. Multiagent Systems: A Modern Approach to Distributed Artificial Intelligence. Cambridge,MA:The MIT Press,1999 【5】Tsitsiklis J N . Asynchronous stochastic approximation and Q-learning . Machine Learning , 1994,16(3):185~202 【6】Lovejoy W S . A survey of algotithmic methods for partially observed Markov decision processs. Annals of Operations Research, 1991,28:47~65 【7】王钰,周志华,周傲英. 机器学习及其应用. 北京:清华大学出版社,2006 【8】McCulloch W,Pitts W. A logical calculus of the ideas immanent in nervous activity . Bulletin of Mathematical Biophysics,1943,5 【9】洪家荣.机器学习——回顾与展望. 计算机科学,1991, (02) :1-8 【10】张汝波. 强化学习理论及应用. 哈尔滨:哈尔滨工程大学出版社,2001 【11】高阳,陈世福,陆鑫. 强化学习研究综述.自动化学报. 2004,30(1):86-100

【12】Barto A G , Mahadevan S . Recent Advances in Hierarchical Reinforcement Learning . Discrete Event Dynamic Systems: Theory and Applications,2003,13(4):41-77 【13】Klopf A H. A neuronal model of classical conditioning. Psychobiology, 1988,16(2):85-125 【14】Singh S P, Jaakola T , Jordan M I . Reinforcement Learning with Soft State Aggregation . Neural Information Processing System 7 ,Cambridge , Massachusetts: MIT Press, 1995:361-368 【15】Moriarty D , Schultz A , Grefenstette J. Evolutionary Algotithms for Reinforment Learning. Journal of Artificial Intelligence Research, 1999,11(1):241-276 【16】Bertsekas D P, Tsitsiklis J N . Neuro-dynamic Programming Belmont: Athena Scientific, 1996

本课题要研究或解决的问题和拟采用的研究手段(途径) : 本课题要研究或解决的问题和拟采用的研究手段(途径) 本课题主要有三大任务: 一是学习强化学习的各种经典算法,比较各个算法的特征和使用场合。 二是学习 POMDP、PSR、HRL 几个新的数学模型。 三是提出创新,对于 PSR 模型提出算法创新。 对于第一个任务,主要是查阅文献,学习几种经典算法,并编程对算法进行比较。进行算法 比较时,主要考虑以下几方面: 1. 算法的收敛速度 2. 算法收敛后的稳定性 3. 算法在规模扩大后的泛化能力 4. 算法在不同环境下的适应能力 5. 改变算法的参数,考察参数对算法性能的影响。 采用的研究手段主要是进行横向比较和纵向比较 1.纵向比较:对于同一个问题,使用不同的算法,比较各算法的性能 2.横向比较:对于同一个问题同一个算法,改变算法的参数或问题规模或环境特征, 比较参数对算法的影响。 第二个任务,对于 POMDP、PSR、HRL 的模型学习,主要以阅读文献为主,通过查阅各种 资料总结几种模型的定义、基本框架。最后在论文中加以归纳。 第三个任务着重于创新性要求,本课题主要是针对 PSR 模型下算法的创新。通过学习 PSR 下的各种算法,对算法提出改进点,并能验证改进的算法性能。


开题报告提交版.doc

开题报告提交版 - 摘要 强化学习是机器学习的一个重要分支,它是一种以环境反馈作

开题报告二次提交版 2.doc

开题报告二次提交版 2 - 中文题目 论口译笔记在实践中的应用方法 开题报告

开题报告(参考版)_图文.doc

开题报告(参考版)_制度/规范_工作范文_实用文档。武汉理工本科生考题报告模版 ...2.开题报告内容填写后,应及时打印提交指导教师审阅。 3. “设计的目的及意义”...

研究生开题报告提交版-陈文博2011.6.09_图文.ppt

研究生开题报告提交版-陈文博2011.6.09 - 陕西中医学院 硕士研究生学位

开题报告格式及范文模板(2018版).doc

开题报告格式及范文模板(2018版) - 第一条 学位论文开题报告是专业学位研究

开题报告最终版_图文.doc

开题报告最终版_管理学_高等教育_教育专区。1 毕业论文开题报告 论文名称: ...提交开题报告 完成论文初稿 提交论文初稿(交指导教师) 修改论文和论文定稿 论文...

开题报告(中文版).doc

开题报告(中文版) - 北京交通大学毕业设计(论文)开题报告 题目:此中有真意,

邓超 毕设开题报告 提交版.doc

邓超 毕设开题报告 提交版 隐藏>> 毕业设计 开题报告 题 目:

开题报告标准版本.doc

开题报告标准版本 - 本科毕业论文开题报告 学姓院名 外国语学院 钱佳艳 张国利

开题报告完美版.doc

开题报告完美版 - 北京中医药大学 2016 级开题报告 题目:临床疗效观察研究

开题报告(修改版)_图文.doc

开题报告(修改版) - 南阳师范学院本科毕业生毕业论文(设计)开题报告书 题目论

开题报告提交版.doc

开题报告提交版 - 摘要 强化学习是机器学习的一个重要分支,它是一种以环境反馈作

智能避障车开题报告第一次提交版.doc

智能避障车开题报告第一次提交版 - 毕业设计(论文)开题报告 题目:小车避障系统

开题报告电子版.pdf

开题报告电子版 - 山西艺术职业学院 学位论文开题报告及工作计划 学生姓名: 学

开题报告完整版_图文.doc

开题报告完整版 - 南京师范大学 毕业设计(论文)开题报告 姓学专题 名: 院: 业目: 学号: 指导教师: 年 月 日 开题报告填写要求 1.开题报告作为毕业设计(...

开题报告 (最终版)(1)_图文.doc

开题报告 (最终版)(1)_工学_高等教育_教育专区。毕设卡提报告 ...4)部件结构的有限元分析; 6)依据分析改进结果调整模型,绘制图纸,提交审阅。 ...

开题报告模版.doc

开题报告模版_调查/报告_表格/模板_实用文档。开题报告 基于市场时机的融资行为

开题报告最终版.doc

开题报告最终版_机械/仪表_工程科技_专业资料。北京化工大学本科毕业设计(论文)开题报告 班级:机械 1203 班 学号:2012013091 北京化工大学毕业设计(论文)开题报告 ...

开题报告参考版.doc

开题报告参考版 - 武汉理工大学本科生毕业设计(论文)开题报告 1 设计目的与意

开题报告最终版_图文.doc

开题报告最终版 - 浙江财经大学东方学院 毕业论文(或毕业设计) 开题报告 论文