- 時滯隨機系統的微分博弈理論及應用
- 朱懷念
- 794字
- 2019-10-18 16:28:03
2.4 無限時間Nash博弈
2.4.1 問題描述
本節試圖將上述有限時間的Nash微分博弈問題推廣到無限時間。
考慮下式表示的兩人微分博弈系統
這里φ∈C([-τ,0];Rn)為確定性函數,滿足;wt為一維標準布朗運動;vit是取值于
的Ft-可測的變量,表示博弈人i的決策控制變量,i=1,2;τ>0為給定的有限的時間延遲;A,?,B1,B2,Ct,D1,D2為具有適當維數的常數矩陣。
以J1[v(·)],J2[v(·)],v(·)=[v1(·),v2(·)]來表示博弈人i,i=1,2各自對應的性能指標泛函
其中Qi=QΤi≥0∈Rn×n,,i=1,2。
我們的問題是尋找容許控制[u1(·),u2(·)],使得下述不等式成立
J1[u1(·),u2(·)]≤J1[v1(·),u2(·)],J2[u1(·),u2(·)]≤J2[u1(·),v2(·)].
這樣的[u1(·),u2(·)]稱為博弈問題的Nash均衡點。
2.4.2 主要結論
首先介紹無限時域隨機最優控制中的一個重要概念——隨機穩定性。
定義2.1[97] 隨機受控系統是(均方意義下)隨機穩定的,如果存在一個反饋控制ut=Kxt,使得對任意的初始值φ(0),閉環系統
是漸近均方穩定的,即
,其中K∈Rm×n為常數陣。
在本節中,我們將控制策略uit限定在形如uit=Fixt的線性狀態反饋控制策略。
用FN表示所有使得下述閉環隨機系統
均方漸近穩定的(F1xt,…FNxt)構成的集合。
為了使得所研究的問題有意義,我們做出下述假設。
(A.2.3)假設系統(2.36)是隨機穩定的。
類似于有限時間Nash博弈的結果,我們有如下結論。
定理2.4 在假設(A.2.3)成立的條件下,假設如下推廣的Riccati方程存在對稱的正定解P1,P2∈Rn×n
其中。
定義策略組(F*1xt,F*2xt)
則(F*1xt,F*2xt)∈F2,且該策略組(F*1xt,F*2xt)是博弈問題(2.34)和(2.35)的一個Nash均衡點。
證明:定義哈密爾頓函數:
根據最大值原理知
即
其中(yit,zit)是下述伴隨方程的解
令
其中P1=PΤ1∈Rn×n,P2=PΤ2∈Rn×n是常數矩陣。
對y1t=P1xt和y2t=P2xt應用It?公式,得
比較式(2.43)中擴散項的系數,得
將式(2.42)和(2.44)代入式(2.40),得最優控制
于是有
將式(2.45)代回上式,從而得到式(2.37),證畢。□