概念
一个最优决策应具有这样的性质,不管初始状态和初始决策如何,剩下的决策(整个最优决策中的一部分)对于从这一级开始的后续多级过程,仍然是一个最优决策。应用最优性原理,可以把多级决策问题的求解过程看作是一个连续递推过程,由后向前逐级推算。在求解过程中,前一级的决策和输出状态只是后一级的初始条件(初始状态),并不影响后续子过程的最优决策。1
基本原理设维离散系统为
要求确定最优控制,使性能指标
最小。式中,是固定的;不受限制(或)。
记为达到终端状态的末级性能指标,即有
当时,得到
由于控制变量对当前状态无作用,只能改变后续状态变量的值,而且控制变量必然是当前状态的函数,记最优控制得到的性能指标为
采用同样的方法,得到递推公式
上式称为贝尔曼递推方程,它是动态规划的基本递推关系式。由已知的级过程的最优性能指标,根据递推公式确定最优控制,就可得到级过程的最优性能指标。动态规划的寻优算法是从末级过程开始的,然后,根据式子逐级倒推,最终得到多级过程的最优决策和最优性能指标。递推公式明确指出,每一步倒推时,并不是孤立地考虑当前级的过程,而是从该级到最后一级所有过程的整体的最优决策,使“整体”的性能指标最优。
动态规划的递推公式再一次重申了一个重要概念——嵌入原理原理,就是说,既然表示初始状态为的一个级过程中,从第级开始的最后级过程的最优性能指标,又表示初始状态为的级的最优性能指标。嵌入原理的内容是,当时,一个级过程的最优决策和最优性能指标是被嵌入在一个级过程的最优决策过程之中的。1