随机最优控制简介
随机最优控制是指选择控制变量,使随机系统某个性能指标达到最优的控制。在随机系统控制中,必须进行状态估计。应用不同的状态估计方法,会得到不同的解。因为系统的状态方程和观测方程一般都要受到噪声的干扰,系统的状态是不确定的,确切知道的只是已经获得的一组输出数据和已经施加于系统的控制输入。如何利用这些输入输出数据实时信息去估计系统的状态或输出,便构成了不同的信息结构。因此,随机最优控制问题的研究首先必须与信息结构相联系。信息结构分为经典信息结构和非经典信息结构。对于经典信息结构,每一时刻控制量的确定都利用了最大实时信息。而在非经典信息结构下控制量每个分量的确定利用了最大实时信息的一部分。
其次,随机最优控制问题还必须规定控制策略,即如何利用信息去处理被优化的性能指标,从而导致不同类型的控制函数。
开环控制策略是把优化性能指标中所有的随机量用其先验均值代替,从而简化为一个确定性的最优控制问题。这样得到的最优控制是一个开环控制函数
式中 是初始状态的均值。
闭环控制策略是在动态规划的每一步都要利用实时信息,控制是信息z(t)的函数
在随机的情况下,由开环控制策略得到的开环控制函数与由闭环控制策略得到的闭环控制函数,一般是不等价的。通常只有经典信息结构下的闭环最优控制,才是本来意义的最优控制。亦即,利用最大实时信息,并采用闭环控制策略,才能使被优化的性能指标在统计意义下达到最优。
对于线性二次型高斯(LQG)问题,可以由分离原理(也称分离定理)给出其解析解。最优策略可以由两部分组成。一部分是个最优滤波器,它按卡尔曼滤波公式求得t时刻的状态估计 (t|t)。另一部分是按确定型系统优化求得最优线性反馈,用状态估计 (t|t)代替确定型反馈解中的状态x(t),得闭环最优解。
随机控制理论随机控制理论的一个主要组成部分是随机最优控制,这类随机控制问题的求解有赖于动态规划的概念和方法。
随机控制理论的目标是解决随机控制系统的分析和综合问题。维纳滤波理论和卡尔曼-布什滤波理论是随机控制理论的基础。卡尔曼滤波是一种高效率的递归滤波器(自回归滤波器), 它能够从一系列的不完全及包含噪声的测量中,估计动态系统的状态。
控制理论中把随机过程理论与最优控制理论结合起来研究随机系统的分支。随机系统指含有内部随机参数、外部随机干扰和观测噪声等随机变量的系统。随机变量不能用已知的时间函数描述,而只能了解它的某些统计特性。自动控制系统分为确定性系统和不确定性系统两类,前者可以通过观测来确定系统的状态,后者则不能。
随机系统是不确定性系统的一种,其不确定性是由随机性引起的。严格地说,任何实际的系统都含有随机因素,但在很多情况下可以忽略这些因素。当这些因素不能忽略时,按确定性控制理论设计的控制系统的行为就会偏离预定的设计要求,而产生随机偏差量。
随机控制随机控制就是人们对于控制对象的性质一无所知,所必需的条件完全不了解。但对它还要进行有目的的控制,这时能够采用的唯一的方式就是随机控制方式。1
随机控制是一种最原始的控制方式,也叫试探性控制。它是其他一切控制方式的基础。
按照控制的逻辑发展,可将控制分为随机控制、记忆控制、推理控制和最优控制。
当我们碰到一种棘手的事情,又想不出什么办法来解决时,常常硬着头皮说:“那就碰碰运气,试试看吧。”“碰运气”或“试试看”就是最简单的试探控制。
它是完全建立在偶然机遇的基础上,是在人们对解决问题所必需的条件不了解,对控制对象的性质不清楚的情况下所能采取的唯一办法。
例如,我们要打开一个上了锁的房间,手里有一大串钥匙,但不知道其中哪一把能把锁打开。在这种情况下,人们常用的方法就是“一个一个地试一试看”,直到把锁打开。
试探控制在成功的同时,常常伴随着失败。这种控制方式有较大的风险,对事关重大的活动,一般不宜采用这种控制方式。
在人类社会发展初期,人们的知识十分有限,因而常采用试探控制。但也应该看到,人类对客观世界的探索是无止境的,无论科学怎样发达,客观世界总会存在未被认识的事物,特别是在科学研究中,当人们对某一新领域的研究刚刚开始,还不能用其他方法来控制所研究的对象时,试探控制往往成为人们唯一可以采用的办法。
最优控制理论定义飞机或导弹在飞行中遇到的阵风,在空间环境中卫星姿态和轨道测量系统中的测量噪声,各种电子装置中的噪声,生产过程中的种种随机波动等,都是随机干扰和随机变量的典型例子。随机控制系统的应用很广,涉及航天、航空、航海、军事上的火力控制系统,工业过程控制,经济模型的控制,乃至生物医学等。
最优控制理论(optimal control theory),是现代控制理论的一个主要分支,着重于研究使控制系统的性能指标实现最优化的基本条件和综合方法。 最优控制理论是研究和解决从一切可能的控制方案中寻找最优解的一门学科。它是现代控制理论的重要组成部分。
这方面的开创性工作主要是由贝尔曼(R.E.Bellman)提出的动态规划和庞特里亚金等人提出的最大值原理。这方面的先期工作应该追溯到维纳(N.Wiener)等人奠基的控制论(Cybernetics)。1948年维纳发表了题为《控制论—关于动物和机器中控制与通讯的科学》的论文,第一次科学的提出了信息、反馈和控制的概念,为最优控制理论的诞生和发展奠定了基础。
研究内容最优控制理论所研究的问题可以概括为:对一个受控的动力学系统或运动过程,从一类允许的控制方案中找出一个最优的控制方案,使系统的运动在由某个初始状态转移到指定的目标状态的同时,其性能指标值为最优。这类问题广泛存在于技术领域或社会问题中。
例如,确定一个最优控制方式使空间飞行器由一个轨道转换到另一轨道过程中燃料消耗最少,选择一个温度的调节规律和相应的原料配比使化工反应过程的产量最多,制定一项最合理的人口政策使人口发展过程中老化指数、抚养指数和劳动力指数等为最优等,都是一些典型的最优控制问题。最优控制理论是50年代中期在空间技术的推动下开始形成和发展起来的。苏联学者Л.С.庞特里亚金1958年提出的极大值原理和美国学者R.贝尔曼1956年提出的动态规划,对最优控制理论的形成和发展起了重要的作用。线性系统在二次型性能指标下的最优控制问题则是R.E.卡尔曼在60年代初提出和解决的。
分析使随机控制系统的某个性能指标泛函取极小值的控制称为随机最优控制。由于存在随机因素,这种性能指标泛函需要表示为统计平均(求数学期望)的形式:
统计平均
式中E{·}表示{·}的均值即数学期望。使性能指标J为极小的最优控制常可取为开环和反馈控制两种形式。如果控制过程中决定u(t)所依据的只是设计时过程特性和随机变量的信息,没有进一步的测量和更新,这种控制策略就称为是开环的。若在决定t时刻的控制作用u(t)时可以直接利用τ时刻的实时测量值y(τ),则称控制u(t)具有反馈形式,其中要求τ≤t,这是因果性或物理可实现性所要求的。
按照利用实时信息的充分程度,又可把反馈形式的控制策略分为两种情形。当只利用这些信息来控制状态变量,而没有通过实时观测来估计和改进各随机变量的统计特性并修改控制策略时,这种策略称为是被动反馈式(简称反馈式)的。若控制策略兼有上述“控制”和“估计”两种功能并具有自行修正的能力,则称为闭环策略(或主动反馈策略)。这种“反馈”和“闭环”的差别是不确定性控制问题所特有的。
A.A.费尔德包姆最先指出闭环随机最优控制策略的这种双重功能,并称之为二重最优控制。闭环(或二重)最优策略可达到在已有信息条件下的最好品质或全局最优解。同时它还具有不断按照实时测量改进对不确定性的认识并修正策略的功能,也称为随机自适应最优控制。闭环最优控制的求解很困难,通常只能根据最优解的定性性质来构造次优解。只对某些特殊问题才可能给出定量解法。
重要性质随机最优控制有两个重要的性质。由于存在不确定性,控制作用常宁可取得弱一些,保守一些。这称为谨慎控制。另一方面为更好和更快地进行估计,必须不断激发系统中各种运动模式,为此需要加入一些试探作用。试探作用的大小,则根据增加的误差、直接费用和所带来的好处等因素加以折衷权衡进行选择。谨慎和试探已成为设计随机控制策略的两个重要原则。
研究课题随机控制理论研究的课题包括随机系统的结构特性和运动特性(如动态特性、能控性、能观测性、稳定性)的分析,随机系统状态的估计,以及随机控制系统的综合(即根据期望性能指标设计控制器)。随机系统中含有随机变量,所以在研究中需要使用随机过程的基本概念和概率统计方法。严格实现随机最优控制是很困难的。
对于线性二次型高斯(LQG)随机过程控制问题,包括它的特例最小方差控制问题,可以应用分离原理把随机最优控制问题分解成状态估计问题和确定性最优控制问题,最终能得到全局最优的结果。但对于一般的随机控制问题应用分离原理只能得到次优的结果。
主要方法为了解决最优控制问题,必须建立描述受控运动过程的运动方程,给出控制变量的允许取值范围,指定运动过程的初始状态和目标状态,并且规定一个评价运动过程品质优劣的性能指标。通常,性能指标的好坏取决于所选择的控制函数和相应的运动状态。系统的运动状态受到运动方程的约束,而控制函数只能在允许的范围内选取。因此,从数学上看,确定最优控制问题可以表述为:在运动方程和允许控制范围的约束下,对以控制函数和运动状态为变量的性能指标函数(称为泛函)求取极值(极大值或极小值)。解决最优控制问题的主要方法有古典变分法、极大值原理和动态规划。2
古典变分法研究对泛函求极值的一种数学方法。古典变分法只能用在控制变量的取值范围不受限制的情况。在许多实际控制问题中,控制函数的取值常常受到封闭性的边界限制,如方向舵只能在两个极限值范围内转动,电动机的力矩只能在正负的最大值范围内产生等。因此,古典变分法对于解决许多重要的实际最优控制问题,是无能为力的。
极大值原理极大值原理,是分析力学中哈密顿方法的推广。极大值原理的突出优点是可用于控制变量受限制的情况,能给出问题中最优控制所必须满足的条件。
动态规划动态规划是数学规划的一种,同样可用于控制变量受限制的情况,是一种很适合于在计算机上进行计算的比较有效的方法。
最优控制理论已被应用于最省燃料控制系统、最小能耗控制系统、线性调节器等。
优化技术最优控制的实现离不开最优化技术,最优化技术是研究和解决最优化问题的一门学科,它研究和解决如何从一切可能的方案中寻找最优的方案。也就是说,最优化技术是研究和解决如何将最优化问题表示为数学模型以及如何根据数学模型尽快求出其最优解这两大问题。一般而言,用最优化方法解决实际工程问题可分为三步进行:
①根据所提出的最优化问题,建立最优化问题的数学模型,确定变量,列出约束条件和目标函数;
②对所建立的数学模型进行具体分析和研究,选择合适的最优化方法;
③根据最优化方法的算法列出程序框图和编写程序,用计算机求出最优解,并对算法的收敛性、通用性、简便性、计算效率及误差等作出评价。
求解方法所谓最优化问题,就是寻找一个最优控制方案或最优控制规律,使系统能最优地达到预期的目标。在最优化问题的数学模型建立后,主要问题是如何通过不同的求解方法解决寻优问题。一般而言,最优化方式有离线静态优化方式和在线动态优化方式,而最优化问题的求解方法大致可分为四类:
1.解析法
对于目标函数及约束条件具有简单而明确的数学表达式的最优化问题,通常可采用解析法来解决。其求解方法是先按照函数极值的必要条件,用数学分析方法求出其解析解,然后按照充分条件或问题的实际物理意义间接地确定最优解。3
这种方法适用于性能指标及约束有明显解析表达式的情况。其一般步是先用求导方法或变分法求出最优控制的必要条件,得到一组方程或不等式,然后求解这组方程或不等式,得到最优控制的解析解即为所求的最优控制。解析法大致可分为两大类。第一类,无约束时,采用微分法或变分法。第二类,有约束时,采用极大值原理或动态规划。
(1)变分法:当控制向量不受约束时,引入哈密顿函数,应用变分法可以导出最优控制的必要条件,即正则方程、控制方程、边界条件、横截条件。
(2)极大值原理:在用变分法求解最优控制问题时,是假定控制向量u(O)不受任何限制,即容许控制集合可以看成是整个P维控制空间开集,控制变分u是任意的,同时还要求哈密顿出数H对u连续可微,但在实际工程上,控制变量往往受到一定的限制,这时可以用极大值原理来求解最优控制问题,这种方法其实是由变分法引申而来的,但由于它能应用于控制变量u(t)受边界限制的情况,并且不要求哈密顿出数H对u连续可微,因此获得了广泛的应用。
(3)动态规划:极大值原理一样,是处理控制向量限制在一定闭集内的最优控制问题的有效数学方法,它把复杂的最优控制间题变为多级决策过程的递推函数关系,其基础和核心时最优性原理即在一个多级决策问题中无论初始状态和初始决策如何,当把其中的任何一级和状态再作为初始级和初始状态时,如下的决定对与这一级开始往后的多级决策过程的一部分必定仍然是一个最优决策。因此,利用这一最优性原理必然可把一个多级决策问题化为最优的单级决策问题并且本级决策与本级以前的任何决策无关,只与本级的初始位置和初始决策有关。对于连续系统用动态规划法求最优控制问题时,可以先把连续系统离散化,用有限差分方程近似代替连续方程,然后用离散动态规划法求解。
2.数值解法(直接法)
对于目标函数较为复杂或无明确的数学表达式或无法用解析法求解的最优化问题,通常可采用直接法来解决。直接法的基本思想,就是用直接搜索方法经过一系列的迭代以产生点的序列,使之逐步接近到最优点。直接法常常是根据经验或实验而得到的。
性能指标比较复杂或不能用变量显函数表示时,可以采用直接搜索法,经过若干次迭代搜索到最优点,数值计算法可以分为两大类:
(1)区间消去法,又称为一维搜索法,适用于求解单变量极值问题。主要有黄金分割法、多项式插值法等。
(2)爬山法,又称多维搜索法,适用于求解多变量极值问题。主要有坐标轮转法、步长加速法等。
3.解析与数值相结合的寻优方法(梯度型法)
是一种解析与数值计算相结合的方法。主要包括两大类:一种是无约束梯度法,如陡降法、拟牛顿法等。第二类是有约束梯度法,如可行方向法、梯度投影法。
4.网络最优化方法
这种方法以网络图作为数学模型,用图论方法进行搜索的寻优方法。