![智能控制与强化学习:先进值迭代评判设计](https://wfqqreader-1252317822.image.myqcloud.com/cover/569/53110569/b_53110569.jpg)
1.3.2 无稳态控制的值迭代跟踪算法
对于一些非线性系统,稳态控制可能不存在或者不唯一,这使得具有稳态控制的VI算法无法使用。为了避免求解稳态控制,一些学者提出的跟踪方法使用了由跟踪误差和原系统控制输入组成的代价函数[60]。首先,将跟踪误差系统重写为ek+1=F(ek+rk ,uk)−D(rk),这消除了式(1-31)中的稳态控制。然后,基于增广系统向量,代价函数设计为
![](https://epubservercos.yuewen.com/B16329/31604723903745206/epubprivate/OEBPS/Images/figure-0032-0097.jpg?sign=1739262230-3LM10bwyVHFVYKPdCfExHQnJgxWSTQnc-0-3201d6e4107fff12a753d3e1349df628)
正如文献[78]指出,式(1-43)中的代价函数需要引入折扣因子,这是由于实际中多数参考轨迹不会趋向于零,因此无折扣情况下的代价函数变得无界。此外,尽管式(1-43)的代价函数形式有效避免了求解稳态控制,但其通常无法消除最终的跟踪误差,因为控制输入uk的最小化并不一定能使跟踪误差ek最小化。
为了避免求解稳态控制和消除最终跟踪误差,对于非线性仿射系统,文献[63]提出了一种新型代价函数为
![](https://epubservercos.yuewen.com/B16329/31604723903745206/epubprivate/OEBPS/Images/figure-0032-0098.jpg?sign=1739262230-bMhZKREzRqRlcnddVJUAIVlxIKz5kOUb-0-f9255c1b1d2d80f36154cd164138b4f1)
其中,效用函数定义为
![](https://epubservercos.yuewen.com/B16329/31604723903745206/epubprivate/OEBPS/Images/figure-0032-0099.jpg?sign=1739262230-qsiKKCuM9xbvGnYaR9rxj1X05yqjmyfT-0-40516e0571f1b201fc8a41e9d5a8881b)
在这种情况下,代价函数表示为
![](https://epubservercos.yuewen.com/B16329/31604723903745206/epubprivate/OEBPS/Images/figure-0033-0100.jpg?sign=1739262230-1Bj1V20bITGQ3MH3QnSXeTnVO6jH376J-0-040383e2b620c95c8016172165952eb9)
根据Bellman最优性原理,最优代价函数满足以下HJB方程
![](https://epubservercos.yuewen.com/B16329/31604723903745206/epubprivate/OEBPS/Images/figure-0033-0101.jpg?sign=1739262230-n66MWN1J5LwoiqX4QdNCTZSTBFgyMjL5-0-db3ef83f1e9d79a44d59322ed2b5fbdb)
然后,相应的最优控制律为
![](https://epubservercos.yuewen.com/B16329/31604723903745206/epubprivate/OEBPS/Images/figure-0033-0102.jpg?sign=1739262230-QOT82Gklz5hT1ELirdqHFAwc1wuPfyCj-0-e2d1f23d48f71458ff3278d2ce7de40c)
其中,ek+1=f(xk)+g(xk)u*(xk)−D(rk)。基于一阶必要条件,进一步可得
![](https://epubservercos.yuewen.com/B16329/31604723903745206/epubprivate/OEBPS/Images/figure-0033-0103.jpg?sign=1739262230-NLiNGRJlNNHP5fjyjaNXHwBq7a73O98I-0-6351679d2020a744e36ca76fec26fe6b)
为了求解最优代价函数和控制律,初始化代价函数为,建立传统VI算法迭代地更新如下控制律
![](https://epubservercos.yuewen.com/B16329/31604723903745206/epubprivate/OEBPS/Images/figure-0033-0105.jpg?sign=1739262230-us3yROzFKipmqPcBbsAKmyc7mNc3uu77-0-86464100ab5bce1f7e7cb0ae070cb36d)
和代价函数
![](https://epubservercos.yuewen.com/B16329/31604723903745206/epubprivate/OEBPS/Images/figure-0033-0106.jpg?sign=1739262230-SLa3snRXGG8QO9CITIEqh9qjGNbxTJ6H-0-278af142a01699f2a9da6e8a501f6ce6)
文献[63]给出了更新过程如式(1-50)和式(1-51)所示的传统VI算法的收敛性。文献[67]指出由于式(1-51)中的迭代代价函数不仅仅是跟踪误差的函数,因此不能简单地被视为Lyapunov函数,并给出了一种新的稳定性分析方法。基于新型代价函数对状态的偏导数,文献[79]尝试采用 DHP 框架以提升算法的精度和收敛速度。此外,文献[80]利用稳定性准则确定了执行 VI 过程中具有稳定性保证的演化策略,从而实现了新型代价函数下的演化跟踪控制。
总之,VI算法中最优跟踪控制的代价函数主要分为3类,包括式(1-35)、式(1-43)和式(1-44)。接下来,进一步讨论这3种代价函数的适用场景。代价函数式(1-35)和式(1-44)能够完全地消除最终跟踪误差,更适合于模型已知的非线性系统。式(1-43)对于模型未知的非线性系统则具有更大的优势。但是每种形式都有不足之处,代价函数式(1-35)的稳态控制通常难以求解,代价函数式(1-43)的最终跟踪误差通常难以消除,代价函数式(1-44)不适用于非仿射系统。通过比较这些结果,迫切需要设计一个功能更强大的 Q 函数来解决非仿射系统的跟踪问题,在不依赖于系统模型和稳态控制的基础上消除最终跟踪误差。