- 电子工业出版社
 - 9787121476617
 - 1-3
 - 540828
 - 60266891-5
 - 16开
 - 2025-03
 - 计算机科学与技术
 - 本科 研究生及以上
 
                            内容简介
                        
                        
                                本书详细介绍了强化学习的理论推导、算法细节。全书共12章,包括强化学习概述、马尔可夫决策过程、退化的强化学习问题、环境已知的强化学习问题、基于价值的强化学习算法、基于策略的强化学习算法、AC型算法、基于模型的强化学习算法等相关知识。本书系统性强、概念清晰,内容简明通俗。除了侧重于理论推导,本书还提供了许多便于读者理解的例子,以及大量被实践证明有效的算法技巧,旨在帮助读者进一步了解强化学习领域的相关知识,提升其现实中的工程能力。本书可作为高等院校数学、计算机、人工智能等相关专业的强化学习教材,但需要有机器学习、深度学习等前置课程作为基础。                            
                            
                        
                            目录
                        
                        
                                第1章 绪论	1__eol__1.1  强化学习是什么	1__eol__1.2  强化学习的基本思想	3__eol__1.2.1  从环境中产生数据	3__eol__1.2.2  求解最优策略	5__eol__1.3  强化学习为什么重要	6__eol__1.4  本书内容介绍	9__eol__参考文献	10__eol__第2章 马尔可夫决策过程	11__eol__2.1  马尔可夫过程	11__eol__2.2  马尔可夫决策过程的定义	12__eol__2.3  马尔可夫过程与马尔可夫决策过程的对比	15__eol__2.4  马尔可夫决策过程的分类	15__eol__2.4.1  马尔可夫决策过程是否发生退化	16__eol__2.4.2  环境是否已知	17__eol__2.4.3  环境的确定性与随机性	18__eol__2.4.4  马尔可夫决策过程的时齐性	20__eol__2.4.5  状态与动作的连续性	22__eol__*2.4.6  时间的连续性	23__eol__2.4.7  小结	24__eol__2.5  马尔可夫决策过程的奖励函数	25__eol__思考题	26__eol__参考文献	27__eol__第3章 退化的强化学习问题	28__eol__3.1  盲盒售货机问题	28__eol__3.2  探索-利用困境	31__eol__3.3  各种不同的探索策略	33__eol__3.3.1  -贪心策略	33__eol__3.3.2  玻尔兹曼探索策略	35__eol__3.3.3  上置信界策略	36__eol__3.4  总结	36__eol__思考题	37__eol__参考文献	37__eol__第4章 最优控制	38__eol__4.1  基于价值的思想	38__eol__4.1.1  三连棋游戏策略	38__eol__4.1.2  价值的定义	42__eol__4.1.3  基于价值和基于策略	45__eol__4.1.4  小结	46__eol__思考题	47__eol__4.2  动态规划	47__eol__4.2.1  策略迭代法	47__eol__4.2.2  雅可比迭代法	48__eol__4.2.3  值迭代法	50__eol__4.2.4  软提升	51__eol__4.2.5  小结	53__eol__思考题	54__eol__4.3  LQR控制	55__eol__4.3.1  基本LQR控制问题	55__eol__4.3.2  LQR控制器	56__eol__*4.3.3  环境随机的LQR控制问题	59__eol__4.3.4  iLQR控制器	61__eol__4.3.5  实时规划	63__eol__4.3.6  小结	64__eol__思考题	65__eol__4.4  总结	65__eol__参考文献	66__eol__第5章 基于价值的强化学习	68__eol__5.1  Q-Learning	68__eol__5.1.1  Q表格	69__eol__5.1.2  产生数据集的方式:探索与利用	69__eol__5.1.3  探索策略	71__eol__5.1.4  使用训练数据的方法:经验回放	73__eol__思考题	74__eol__5.2  Sarsa	74__eol__5.2.1  基本Sarsa算法	74__eol__5.2.2  同策略与异策略	76__eol__5.2.3  n步Sarsa	77__eol__5.2.4  -return算法	78__eol__*5.2.5  n步Q-Learning	79__eol__思考题	80__eol__5.3  DQN及其变体	81__eol__5.3.1  固定Q目标结构	81__eol__5.3.2  双重DQN	84__eol__5.3.3  优先回放机制	86__eol__5.3.4  优势函数	88__eol__5.3.5  Dueling DQN	90__eol__*5.3.6  Rainbow	92__eol__思考题	94__eol__*5.4  NAF	94__eol__*5.4.1  标准化优势函数	94__eol__*5.4.2  NAF的训练	96__eol__5.5  总结:基于价值的强化学习算法	97__eol__参考文献	98__eol__第6章 策略函数与策略梯度	100__eol__6.1  策略函数与期望回报	100__eol__6.2  无梯度方法	101__eol__6.2.1  增强随机搜索	102__eol__6.2.2  交叉熵算法	104__eol__6.2.3  进化算法	104__eol__6.3  策略梯度	106__eol__6.3.1  策略网络的构造	106__eol__6.3.2  策略梯度的计算	108__eol__6.3.3  基本策略梯度算法	111__eol__*6.3.4  动作连续的策略梯度	113__eol__6.4  策略梯度的训练技巧	114__eol__6.4.1  基准法	114__eol__6.4.2  经验回放	116__eol__6.4.3  探索策略	118__eol__6.5  总结	119__eol__思考题	120__eol__参考文献	121__eol__第7章 AC算法	122__eol__7.1  基本AC算法	122__eol__7.1.1  AC算法的出发点	122__eol__7.1.2  化简策略梯度公式	123__eol__7.1.3  AC算法的基本思想	126__eol__7.1.4  单步更新与回合更新	128__eol__思考题	129__eol__7.2  AC算法的训练技巧	129__eol__7.2.1  广义优势函数估计	129__eol__7.2.2  控制训练两个网络的步调	131__eol__7.2.3  ACER	133__eol__思考题	134__eol__7.3  A3C与A2C	135__eol__7.3.1  并行训练	135__eol__7.3.2  A3C	137__eol__7.3.3  A2C	140__eol__思考题	141__eol__参考文献	141__eol__第8章  AC型算法	143__eol__8.1  自然梯度法	143__eol__8.1.1  牛顿法	144__eol__8.1.2  信赖域方法	146__eol__8.1.3  近似点法	146__eol__*8.1.4  自然策略梯度	147__eol__8.2  TRPO与PPO算法	149__eol__8.2.1  策略提升	149__eol__8.2.2  TRPO算法	151__eol__8.2.3  PPO算法	152__eol__8.2.4  TRPO与PPO算法的训练技巧	155__eol__8.2.5  小结	156__eol__思考题	157__eol__8.3  DDPG	157__eol__8.3.1  动作连续问题的网络结构	158__eol__8.3.2  从基于价值的角度理解DDPG算法	158__eol__8.3.3  DDPG算法及训练技巧	159__eol__8.3.4  确定策略下的策略梯度	162__eol__8.3.5  从基于策略的角度理解DDPG算法	163__eol__思考题	165__eol__*8.4  Soft AC	165__eol__8.5  总结:基于策略的算法	168__eol__8.5.1  基于价值和基于策略	169__eol__8.5.2  偏差-方差取舍	170__eol__8.5.3  策略的空间	172__eol__8.5.4  训练数据的产生与使用	172__eol__8.5.5  小结	173__eol__参考文献	174__eol__第9章  基于模型的基本思想	175__eol__9.1  MBRL概述	175__eol__9.2  模型是什么	177__eol__9.2.1  各种模型及其基本用法	178__eol__9.2.2  更多的模型变体	179__eol__9.2.3  模型的一些特点	180__eol__*9.2.4  对模型的理解	185__eol__思考题	188__eol__9.3  如何使用黑盒模型	189__eol__9.3.1  用黑盒模型增广数据	189__eol__9.3.2  权衡数据成本与准确性	191__eol__9.3.3  黑盒模型的其他用途	193__eol__9.3.4  小结	194__eol__思考题	194__eol__9.4  如何使用白盒模型	195__eol__9.4.1  用白盒模型辅助进行策略优化	195__eol__9.4.2  用白盒模型解最优控制	197__eol__9.4.3  小结	199__eol__思考题	199__eol__参考文献	200__eol__第10章  基于模型的强化学习进阶	202__eol__10.1  如何学习模型	202__eol__10.1.1  让学习更符合最终目标	202__eol__10.1.2  让学习本身成为目标	203__eol__10.1.3  以学习作为唯一目标	206__eol__10.1.4  小结	209__eol__思考题	209__eol__10.2  世界模型	210__eol__10.2.1  观察	210__eol__10.2.2  POMDP	212__eol__10.2.3                            
                            
                        
                        
                        
                    


