论文目录 | |
摘要 | 第1-7
页 |
ABSTRACT | 第7-9
页 |
目录 | 第9-12
页 |
1.绪论 | 第12-32
页 |
1.1.课题背景与意义 | 第12-13
页 |
1.2.强化学习的基本原理及其与相关学科关系 | 第13-16
页 |
1.2.1.强化学习的基本原理 | 第14
页 |
1.2.2.强化学习研究的相关学科背景 | 第14-16
页 |
1.3.强化学习研究现状 | 第16-21
页 |
1.3.1.强化学习的发展历史 | 第16-17
页 |
1.3.2.经典的强化学习算法及其发展 | 第17-20
页 |
1.3.3.强化学习的应用研究 | 第20-21
页 |
1.3.4.有待进一步研究的问题 | 第21
页 |
1.4.基于MAS的协同概念设计研究现状 | 第21-28
页 |
1.4.1.协同概念设计的内涵 | 第22-23
页 |
1.4.2.MAS概述 | 第23-25
页 |
1.4.3.基于MAS的协同概念设计 | 第25-28
页 |
1.5.论文组织结构 | 第28-29
页 |
1.6.本文的主要成果和创新点 | 第29-32
页 |
2.基于模拟退火Metropolis准则的多步Q强化学习 | 第32-55
页 |
2.1.引言 | 第32
页 |
2.2.MDP与动态规划 | 第32-36
页 |
2.2.1.MDP模型 | 第32-34
页 |
2.2.2.Bellman最优性原理 | 第34-35
页 |
2.2.3.值迭代与策略迭代 | 第35-36
页 |
2.3.强化学习的经典算法 | 第36-41
页 |
2.3.1.TD学习算法 | 第36-38
页 |
2.3.2.Q学习 | 第38-39
页 |
2.3.3.Q(λ)学习 | 第39-41
页 |
2.3.4.参数λ的意义 | 第41
页 |
2.4.多步Q强化学习算法 | 第41-48
页 |
2.4.1.算法提出 | 第41-43
页 |
2.4.2.算法分析 | 第43-45
页 |
2.4.3.k值的确定 | 第45
页 |
2.4.4.仿真试验 | 第45-48
页 |
2.5.基于Metropolis准则的多步Q强化学习算法 | 第48-53
页 |
2.5.1.模拟退火算法 | 第48-49
页 |
2.5.2.结合Metropolis准则的多步Q学习算法 | 第49-50
页 |
2.5.3.算法分析 | 第50-51
页 |
2.5.4.仿真实验 | 第51-53
页 |
2.6.本章小结 | 第53-55
页 |
3.基于最小二乘的强化学习 | 第55-75
页 |
3.1.引言 | 第55
页 |
3.2.值函数逼近 | 第55-58
页 |
3.2.1.函数逼近的TD学习 | 第56-57
页 |
3.2.2.函数逼近的Q(λ)算法 | 第57-58
页 |
3.3.最小二乘Q(λ)强化学习方法 | 第58-66
页 |
3.3.1.最小二乘Q(λ)学习 | 第58-60
页 |
3.3.2.递推最小二乘Q(λ)学习 | 第60-61
页 |
3.3.3.算法分析 | 第61
页 |
3.3.4.仿真实验与结果分析 | 第61-66
页 |
3.4.最小二乘SARSA(λ)算法 | 第66-73
页 |
3.4.1.强化学习的SARSA(λ)算法 | 第66-67
页 |
3.4.2.最小二乘SARSA(λ)算法 | 第67-69
页 |
3.4.3.递推最小二乘SARSA(λ)学习 | 第69-70
页 |
3.4.4.仿真实验与结果分析 | 第70-73
页 |
3.4.5.最小二乘Q(λ)和SARSA(λ)算法的对比 | 第73
页 |
3.5.本章小结 | 第73-75
页 |
4.基于MAS的协同概念设计系统研究 | 第75-93
页 |
4.1.引言 | 第75
页 |
4.2.协同概念设计的特点与模型 | 第75-79
页 |
4.2.1.协同概念设计的特点 | 第75-76
页 |
4.2.2.协同概念设计的集成模型 | 第76-77
页 |
4.2.3.基于MAS的协同概念设计系统的总体思想 | 第77-79
页 |
4.3.协同概念设计系统的Agent建模方法 | 第79
页 |
4.4.基于MAS的协同概念设计系统 | 第79-85
页 |
4.4.1.系统体系结构 | 第80-81
页 |
4.4.2.管理Agent | 第81-83
页 |
4.4.3.设计Agent | 第83-85
页 |
4.5.基于信念型承诺的Agent协作机制 | 第85-91
页 |
4.5.1.通用部分全局规划概述 | 第85-86
页 |
4.5.2.信念型承诺的提出 | 第86-87
页 |
4.5.3.基于信念型承诺的Agent协作机制 | 第87-90
页 |
4.5.4.基于信念型承诺的Agent协作在协同概念设计系统中的应用 | 第90-91
页 |
4.6.基于MAS的协同概念设计系统实现 | 第91-92
页 |
4.7.本章小结 | 第92-93
页 |
5.强化学习在协同概念设计系统中的应用 | 第93-109
页 |
5.1.引言 | 第93
页 |
5.2.协同设计任务调度的强化学习方法研究 | 第93-104
页 |
5.2.1.任务调度问题的研究现状分析 | 第94-95
页 |
5.2.2.协同设计任务调度问题描述 | 第95-96
页 |
5.2.3.任务调度问题的MDP模型 | 第96-98
页 |
5.2.4.任度调度的强化学习算法 | 第98-99
页 |
5.2.5.应用实例与分析 | 第99-104
页 |
5.3.强化学习在协同概念设计方案优化中的应用 | 第104-107
页 |
5.3.1.方案优化问题的MDP模型 | 第104-106
页 |
5.3.2.基于强化学习的方案优化算法 | 第106
页 |
5.3.3.应用实例分析 | 第106-107
页 |
5.4.本章小结 | 第107-109
页 |
6.结束语 | 第109-112
页 |
致谢 | 第112-113
页 |
参考文献 | 第113-123
页 |
攻读博士学位期间发表和录用的论文 | 第123
页 |