|
关于我们
精品教材 更多 规划教材 更多 |
强化学习
本书采用“基础理论-进阶方法-前沿拓展”的三段式知识体系, 帮助读者由浅入深地掌握强化学习的核心思想与方法论。全书分为三部分: 第一部分强化学习基础 (第1-7章), 从学科概览与发展脉络出发, 介绍马尔可夫决策过程 (MDP) 的理论基础, 重点讲解表格型强化学习方法, 通过网格世界、悬崖行走等经典案例, 帮助读者深入理解强化学习算法的核心原理; 第二部分强化学习进阶 (第8-13章), 聚焦深度强化学习的范式迁移与方法创新, 从线性近似过渡到深度神经网络的价值函数逼近, 对比分析DQN、PPO、SAC 等主流深度强化学习算法架构, 并剖析基于模型的方法在环境建模方面的优势, 特别注重算法原理的深入剖析, 使读者能够掌握深度强化学习的核心思想; 第三部分强化学习前沿 (第14-20章), 拓展学科交叉应用与前沿研究方向, 涵盖模仿学习、离线强化学习等数据驱动范式, 详解人类反馈强化学习 (RLHF) 的对齐技术, 并探索量子计算、扩散模型等新兴交叉领域。
我要评论
|
