*控制是现代控制理论中的重要课题。近年来,随着工程应用的需求和人工智能的兴起,在系统模型未知或部分未知的情况下寻求近似*控制的方法逐渐崭露头角。本书上册包括*控制基础和*控制的数学理论两部分,着重介绍经典变分法、庞特里亚金极小值原理以及动态规划方法;下册侧重*控制的智能方法,包括强化学习与自适应动态规划、*控制的数值方法、模型预测控制、微分博弈以及平行控制。为了适应智能时代的人才需求,我们在中国科学院大学计算机与控制学院和人工智能学院开设了包含*控制数学理论与智能方法的研究生专业课,并在课程讲义的基础上整理得到本书。
本书上册可作为高年级本科生或研究生的*控制课程教材,上下册的结合可供控制论、人工智能、管理学等领域的学生、科研人员和专业技术人员参考。
*控制是现代控制理论中的重要课题。近年来,随着工程应用的需求和人工智能的兴起,在系统模型未知或部分未知的情况下寻求近似*控制的方法逐渐崭露头角。本书上册包括*控制基础和*控制的数学理论两部分,着重介绍经典变分法、庞特里亚金极小值原理以及动态规划方法;下册侧重*控制的智能方法,包括强化学习与自适应动态规划、*控制的数值方法、模型预测控制、微分博弈以及平行控制。为了适应智能时代的人才需求,我们在中国科学院大学计算机与控制学院和人工智能学院开设了包含*控制数学理论与智能方法的研究生专业课,并在课程讲义的基础上整理得到本书。本书上册可作为高年级本科生或研究生的*控制课程教材,上下册的结合可供控制论、人工智能、管理学等领域的学生、科研人员和专业技术人员参考。
最优控制与最优教学
三十多年前,最优控制曾是我由力学转入控制后的首选方向。记得第一个课题就是桥梁和高层
建筑的主动减振控制,属分布参数系统问题;第二个是非线性问题的次优控制,试图利用最小二乘
方法和勒让德特殊函数进行递归求解 Hamilton-Jacobi-Bellman(HJB)方程。可惜因其他研究任务
最后都没持续下去,成为心中至今的遗憾。喜欢最优控制的一个重要原因是大学和硕士期间着迷于
变分法、力学和物理中各种各样的变分原理、泛函分析及其在希尔伯特空间的几何表示方式。我一
直希望能利用泛函从代数几何空间的角度去解释最优控制,并进而在流形上近似求解各种非线性最
优控制问题。
赴美留学之后,研究方向立刻转入以人工智能为基础和以智能机器人系统为对象的智能控制。1986年,上导师 George N.Saridis教授的自组织系统之随机控制(Stochastic Control of Self-organizing Systems)课时,一度曾有机会回头从事最优控制的研究,但由于对于如何利用熵(entropy)表示与导师有严重的分歧,一番争吵之后,最后少果而终,仅留下一篇会议论文和一篇杂志论文 1。有幸的是,这让我有机会独立地提出了早期自适应动态规划( adaptive dynamic
programming,ADP,最初称为
approximate dynamic programming)的思想。更可喜的是,今天,
以刘德荣教授和魏庆来研究员为代表的复杂系统管理与控制国家重点实验室团队在此领域硕果累
累,已成为国际上研究 ADP的先锋与重镇。
其实,至今我仍认为熵表示可能是统一各种最优控制方法,特别是将自适应和预测控制统一起
来的可行途径,甚至更广泛的平行控制也可以纳入熵表示的框架之中。特别是跟随副导师 Robert
F. McNaughton教授上完自动机、形式语言和理论计算机课程之后,更感到控制熵与信息熵、计算复杂性之间有着深刻的内在关联,再加上学习控制和机器学习(当时称为学习机器,learning
1关于争吵的部分描述见 2001年出版的 Modeling
Uncertainty: An Examination of Stochastic Theory, Methods, and Applications第 16章最后一节。会议论文之后于
1992年发表于图森召开的 IEEE控制与决策会议,题为 Suboptimal Control for Nonlinear Stochastic Systems。杂志论文于 1994年发表于 Control
Theory and Advanced Technology第 10卷第 4期,题为 Suboptimal Control of Nonlinear Stochastic Systems。
machines)方法,或许能够创出一条从最优控制的数学理论到最优控制的智能方法之新路 2。这三十余年来未熄的梦想,就是驱动创作本书的原始动机。
当然,本书的写作还有一个十分显然的现实动机。近十年来,周围愿以控制理论和控制工程专业为第一选择的学生相对大大减少,学生们都希望转入其他以算法为主更时兴、见效更快的专业。相对而言,控制付出大,回报却不见得大。然而,控制是硬科技,更是智能技术中的硬智能。没有过硬的控制,许多想法和算法无法落地。而且,最优控制是控制之中的硬课程,是硬中之硬。正如国家与社会的发展不能只发展虚拟经济,必须有强硬的实体经济支撑,技术的健康发展,一定也不可忽略控制技术,必须有高质量的人才不断加入控制技术的研究与开发之中才可持续。因此,一部与时代技术和应用要求合拍的最优控制教程,是吸引更多优秀学生从事控制专业的重要一步,这就是本书写作的现实动机。
因此, 2015年秋,我答应承担起中国科学院大学(以下简称国科大)计算机与控制学院的
最优控制研究生教学任务,并筹划写一本新的最优控制教材。最初有两个计划,一是按以学习者为中心的教育(learner-centered education,LCE,其中老师和学生都是学习者)之思想教学,并按照教学三境界方式安排教学内容和进度;二是变编年体式的教科书为纪传体的教材,就像《史记》开创中国史书的撰写新方式,希望使最优控制这门课的课本尽量生动有趣,与时代相宜。
所谓教学三境界是仿王国维关于词之三层境界之说,让教学也有三阶段或三境界:
1
)开始:滴水见大海, See the whole ocean from a drop of water。用开始的几堂课,把最优控制的核心问题、主要概念和关键方法以最简单的例子讲清楚。目的就是带学生登顶看城,让学生有一个整体观。
2
)过程:借用苏轼的《题西林壁》,横看成岭侧成峰,远近高低各不同。不识庐山真面目,只缘身在此山中。Difficulty and confused, but not lost, still know where you are and
enjoy.滴水阶段之后,根据学生水平和兴趣及教学要求,放开地去讲,但不断地与滴水的内容回连和关联。学生可以不懂,但必须知道懂了什么、不知什么,内容的意义或意味着什么。这就如同带领学生手机地图探城,大街小巷任游。
3
)结局:借用杜甫的《望岳》,荡胸生层云,决眦入归鸟。会当凌绝顶,一览众山小。
In the end you feel like an expert in Optimal Control:Be there,done that,and so what!课的后期,以一个综合的题目或项目,把滴水阶段的问题、概念、方法再回头以庐山阶段学到的手段一网打尽,让学生从心理上感觉到自己了解掌握了最优控制的精髓,上升到泰山境地,今后可以
2见 1989年王飞跃在
NASA/RPI空间探索智能机器人系统中心提交的题为 Information-based Complexity and Its Application in Intelligent
Machines的工作报告。
有信心地使用或补习最优控制的方法和技术。这就像游城之后,让学生讲述经历和体会,让他们有这座城市我去过,是一个活生生的地方,消除心理障碍,不再抽象神秘了。
这是我在美教授二十年机器人与自动化(Robotics and Automation)课程的实践与经验的总结,曾获得很好的效果,使学生对内容的理解从原来大约 20%的程度提高到差不多 70%3。最优控制差不多是控制课程中最难的,我希望以三境界的方法教授国科大的最优控制。
新型教材的撰写更是自己很久以来的想法。读过许多领域的专业著作,多数初读时的感觉很难摆脱枯燥无味四字,往往对书中一些内容不知为什么、干什么,更不知谁提出来了,当时的情景与动机是什么。没有历史感,更无发展感。每当此时,我就想起小时看过的文革之前的一些中小学课本:物理课本介绍牛顿定律时有牛顿的头像和简介,化学课本介绍元素周期表时有门捷列夫的画像和故事,似乎自己就是因此才养成喜欢读书的习惯。
一次,读《史记》纪传体形成过程研究的论文,深叹司马迁纳百家众体,创新出以纪传体为中心,五体相依,体系严密的新史体,以致百代而下,史官不能易其法,学者不能舍其书,从此
《春秋》《左传》《国语》等编年体史书不再主流,而纪传体不断发展延至今日。个人认为,今天绝大多数的专业著作和教科书之写作方式仍属知识的编年体,太注重知识本身之用,却忘了是谁去学谁去用。我们应该学习司马迁,重视专业知识之前、之中、之后的人,就是学习者和应用者,用知识描述的纪传体方式来创作专著和教科书,让人在其中,故事穿之,使死知识变活知识,生动有趣,让 LCE以学习者为中心的教育和教学不再是口号和空话。由于时间的原因,本书的写作,只是沿此方向的一个十分初步的尝试,希望将来有机会结合 wiki、微信和网络化、可视化等技术深入系统地研究纪传体的教科书和学术著作应如何撰写4。
由于肩负其他科研任务,我无法以个人之力完成最优控制的教学和教材写作任务。这些任务的完成,特别是本书写作,张杰博士是最主要的贡献者。张杰大学在清华大学读数学,硕士在人民大学攻经济,博士期间才开始在中科院自动化所与我一起从事社会计算、计算经济,特别是博弈论方面的研究工作。我一直希望张杰能以闭环实时反馈的思路在平行经济,特别是平行博弈方向有所建树,所以要求他再回头补足一些控制的核心知识。因此,博士一毕业,就安排他与我一起教授
最优控制,并承担了大部分的教学和教材工作。两年多来,我几乎只是动口并反复无常地提出了许多几近苛刻的要求,张杰博士总是全力以赴,而且给了我许多事先没有想到的惊喜。我坚信,张杰博士一定会独立成为最优控制这门课的一位非常优秀的教师。
3见王飞跃科学网博客:《关于机器人课教学的三境界实践简忆》,http://blog.sciencenet.cn/blog-2374-860504.html。 4更多关于教学的想法,请见王飞跃科学网博客:《我的教学梦》,http://blog.sciencenet.cn/blog-2374-6431.html;以及《将来如何教学生?》,http://blog.sciencenet.cn/blog-2374-341680.html。
2015年最优控制课后部分师生交流合影,就座二人为授课教师,本书作者王飞跃、张杰(摘自 2015年国科大最优控制课程纪念册)
第一年( 2015年)教授最优控制时,我还请了北京交通大学的侯忠生教授,讲授数据驱动的控制方法;我们实验室的魏庆来研究员,讲授自适应动态规划方法。第二年( 2016年)上课时,邀请了国科大的王立新教授讲授模糊逻辑和模糊控制,以及美国印第安纳大学 -普渡大学的李灵犀教授讲授强化学习方法。在张杰博士的精心协调和安排之下,讲课效果之佳完全超出我的预想,学期结束时得到了许多同学积极正面的反馈,摘录如下:
教学三境界
第一次接触到这般教学思想,从整体到局部,再从局部回归整体。如今课程结束,那些知识却深深地印在脑海之中。
几位老师给我们描绘了一幅控制的完美历史画卷,张老师说他喜欢这种历史的厚重感,敢问又有哪位同学能不被这么美妙的历史所吸引。在这种强烈的兴趣下我也相信每位同学都愿意深入这门课程去探索科学的真谛。
最优控制理论是我十几年的求学过程中上过的最优质的课程。课程内容既扎根本质又放眼前沿,高大上的微信公众平台也让我得以随时了解课堂信息,全面、客观的考核方式更是让我真正做到了平时努力学,考试轻松过。
在怀柔国科大,有幸能上最优控制理论这门课,遇到那么棒的老师,认识一群那么棒的同学,是我这辈子,学生时代,最美好的回忆!
国科大最优控制2015年授课教师,左上为中科院自动化所王飞跃教授,左下为北京交通大学侯忠生教授,右上为中科院自动化所张杰副研究员,右下为中科院自动化所魏庆来研究员(摘自 2015年国科大最优控制课程纪念册)
特别令我高兴的是,第一年结束时,我还得到一本由最优控制课程的教学照片和评语制作成的纪念册,不但精美,而且难忘。这不但让我感到自己所费心血值得,也再次让我想起物理学大师 John Wheeler的话:大学里为什么要有学生?那是因为老师有不懂的东西,需要学生来帮助解答。
国科大最优控制2016年部分授课教师,左图为国科大王立新教授,右图为印第安纳大学 -普渡大学李灵犀教授
2016年最优控制课后师生共游国科大后山雁栖湖,左三、左五、左六分别为本课教师张杰、王飞跃、王立新
回国后能有这样一次令人难忘的教学经历,十分难得,为此我必须感谢上课的两百余名同学和五名教授团队,特别是付出最大努力的张杰博士。然而,这离我最初希望以教学三境界为支撑,以平行课堂和平行教育的方式进行最优控制教学的设想还有很大一段距离。可喜的是,两年来的教学实践和教材撰写已为下一步的智能化平行教学奠定了一个良好的基础。衷心希望这本教材所开始的新教学理念,能在同学的帮助之下得到深入地发展和巩固,使本书的下册《最优控制
智能方法》更加完善和成功,也为教学改革做一次有益且有效的努力。
《最优控制
数学理论与智能方法》(上册)是一次教学和教材的改革尝试,一定存在许多不足之处,作为主导和组织者,对此我必须承担全部责任。在此,我十分感谢王雨桐、白天翔、曾帅博士、张晓磊、顾颖城、王晓博士、高琳等帮助此课的同事和同学。希望本书面世后能够得到相关专家和一线师生的批评指正,以便今后改正和改进,在此表示衷心的感谢。
2017年夏末于北京静安园中国科学院自动化研究所复杂系统管理与控制国家重点实验室中国国防科技大学军事计算实验与平行系统技术研究中心
第 1部分最优控制介绍
第 1章最优控制基础 3
11引言 4
12变分问题 5
121最速降线问题 5
122等周问题 7
123变分法的诞生 9
13最优控制问题 13
131最优控制问题的早期探索 13
132最优控制问题数学理论的奠基16
133无确定模型的最优控制问题:智能方法 26
小结 34
第 2章最优控制方法 35
21变分法与最优控制的驻点条件 36
211 Euler的几何方法 36
212 Lagrange的 方法39
213 Lagrange乘子法43
214 Hestenes的经典变分求解最优控制44
215变分法解最优控制示例45
22 Pontryagin极小值原理与最优控制的必要条件 48
221 Weierstrass-Erdmann条件 48
222 Weierstrass条件50
223 Pontryagin极小值原理 51
224极小值原理解最优控制示例 53
23动态规划与最优控制的充分条件54
231 Hamilton-Jacobi方程 54
232 Bellman的动态规划方法55
233动态规划解最优控制示例 57
24微分博弈与最优控制的平衡条件59
241博弈与平衡 60
242 Isaac的微分博弈 63
25自适应动态规划 66
251神经网络与反向传播算法 66
252离散时间自适应动态规划 69
253连续时间自适应动态规划 72
254神经网络与控制74
255自适应动态规划求解最优控制示例 74
26模型预测控制 77
261最优控制的数值方法 78
262模型预测控制求解最优控制示例 79
27平行控制 81
271 ACP方法的基本概念82
272平行控制的基本框架和原则 82
小结 85
第 2部分最优控制的数学理论
第 3章最优控制的变分方法 89
31函数极值问题 90
311函数极值与 Taylor展开 90
312函数极值的必要条件和充分条件 92
32变分初步:从函数极值到泛函极值 95
321泛函及其范数 96
322从函数极值到泛函极值98
323泛函极值的必要条件 103
324 Euler-Lagrange方程的求解 110
325 Euler-Lagrange方程与 Hamilton方程组116
33等式约束的处理 119
331 Lagrange乘子法回顾 119
332微分约束的泛函极值 121
333积分约束的泛函极值 126
34目标集的处理 130
341兄弟打赌:具有可变端点的变分问题130
342目标集终端时刻固定,终端状态自由131
343目标集终端时刻自由,终端状态固定135
344目标集终端时刻和状态自由且无关 141
345性能指标的转化与一般目标集的处理143
35从变分法到最优控制 149
351变分法求解最优控制问题:极小值原理初探150
352有一般目标集的最优控制问题154
353分段连续可微的最优控制 157
354 Weierstrass-Erdmann条件与
Weierstrass条件 167
355稳态系统的 Hamiltonian函数 169
小结 172
第 4章 Pontryagin极小值原理173
41 Pontryagin极小值原理基础174
411 Pontryagin极小值原理的表述 174
412稳态 Mayer形式极小值原理的证明179
413稳态 Bolza形式极小值原理的证明191
414时变系统极小值原理的证明 195
415一般目标集的处理 198
42极小值原理求解最优控制的例子201
421极小值原理求解无约束最优控制 202
422极小值原理求解有约束的最优控制 206
43时间最短控制与燃料最省控制 213
431时间最短控制的 Bang-Bang控制原理 213
432线性定常系统的时间最短控制示例 218
433燃料最省控制与 Bang-off-Bang控制原理 227
434时间和燃料加权的最优控制示例 233
44线性二次型最优控制 243
441线性二次型最优控制与 Ricatti方程243
442极小值原理求解线性二次型最优控制示例
247
小结 251
第 5章动态规划253
51最优性原理254
511多阶段决策的最优性原理 254
512动态规划求解最短路示例 256
52动态规划求解离散最优控制 259
521离散时间最优控制问题259
522 Bellman方程 262
523动态规划求解离散最优控制示例 263
524维数灾难之咒 281
53动态规划求解连续最优控制 282
531 Hamilton-Jacobi-Bellman方程 282
532动态规划与极小值原理的关系289
533动态规划求解连续最优控制示例 291
54动态规划求解线性二次型最优控制 296
541离散时间线性二次型最优控制296
542连续时间线性二次型最优控制302
543二次型性能指标的参数305
小结 308
参考文献 309
索引 321