部分可观马尔科夫决策过程直接基于观测的优化方法研究 |
论文目录 | | 摘要 | 第1-6页 | ABSTRACT | 第6-12页 | 第一章 绪论 | 第12-20页 | · 部分可观Markov决策模型的背景 | 第12-13页 | · Markov决策过程基于灵敏度的优化方法现状简述 | 第13-14页 | · 部分可观Markov决策过程优化方法简介 | 第14-17页 | · 本文的研究内容和意义 | 第17-19页 | · 研究内容 | 第17-18页 | · 研究意义 | 第18-19页 | · 文章结构 | 第19-20页 | 第二章 基于灵敏度的Markov决策过程性能优化 | 第20-30页 | · Markov决策过程数学模型 | 第20-22页 | · 策略的定义 | 第21页 | · 转移概率矩阵和报酬函数 | 第21-22页 | · 性能准则 | 第22页 | · Markov过程灵敏度分析 | 第22-30页 | · 摄动实现因子与性能势 | 第22-24页 | · Markov过程性能差公式与性能导数公式 | 第24-25页 | · 策略迭代 | 第25-26页 | · 性能势的数值计算方法和估计算法 | 第26-27页 | · 性能梯度的计算方法 | 第27页 | · 基于性能梯度的优化算法 | 第27-28页 | · 本章总结 | 第28-30页 | 第三章 直接基于观测的POMDPs优化方法 | 第30-44页 | · 部分可观Markov决策过程提出原因 | 第30页 | · 部分可观Markov决策过程的模型介绍 | 第30-31页 | · 部分可观Markov决策过程的策略定义 | 第31页 | · 部分可观Markov决策过程基于观测的性能灵敏度分析 | 第31-37页 | · 直接基于观测的策略迭代算法 | 第37-39页 | · 例子 | 第39-42页 | · 本章小结 | 第42-44页 | 第四章 直接基于观测的大规模POMDPs系统策略迭代算法 | 第44-58页 | · 大系统理论的思想和方法 | 第44-46页 | · 大规模部分可观Markov决策过程系统模型 | 第46-47页 | · 大规模部分可观Markov决策过程的性能灵敏度分析 | 第47-51页 | · 大规模部分可观Markov决策过程的分层策略迭代优化算法 | 第51-52页 | · 实例验证 | 第52-56页 | · 本章小结 | 第56-58页 | 第五章 总结与展望 | 第58-60页 | · 总结 | 第58-59页 | · 展望 | 第59-60页 | 第六章 参考文献 | 第60-64页 | 致谢 | 第64-66页 | 在读期间发表的学术论文与取得的研究成果 | 第66页 |
|
|
|
| |