官术网_书友最值得收藏!

2.4 無限時間Nash博弈

2.4.1 問題描述

本節試圖將上述有限時間的Nash微分博弈問題推廣到無限時間。

考慮下式表示的兩人微分博弈系統

這里φC([-τ,0];Rn)為確定性函數,滿足wt為一維標準布朗運動;vit是取值于Ft-可測的變量,表示博弈人i的決策控制變量,i=1,2;τ>0為給定的有限的時間延遲;A?B1B2CtD1D2為具有適當維數的常數矩陣。

J1[v(·)],J2[v(·)],v(·)=[v1(·),v2(·)]來表示博弈人ii=1,2各自對應的性能指標泛函

其中Qi=QΤi≥0∈Rn×ni=1,2。

我們的問題是尋找容許控制[u1(·),u2(·)],使得下述不等式成立

J1[u1(·),u2(·)]≤J1[v1(·),u2(·)],J2[u1(·),u2(·)]≤J2[u1(·),v2(·)].

這樣的[u1(·),u2(·)]稱為博弈問題的Nash均衡點。

2.4.2 主要結論

首先介紹無限時域隨機最優控制中的一個重要概念——隨機穩定性。

定義2.1[97] 隨機受控系統是(均方意義下)隨機穩定的,如果存在一個反饋控制ut=Kxt,使得對任意的初始值φ(0),閉環系統是漸近均方穩定的,即,其中K∈Rm×n為常數陣。

在本節中,我們將控制策略uit限定在形如uit=Fixt的線性狀態反饋控制策略。

FN表示所有使得下述閉環隨機系統

均方漸近穩定的(F1xt,…FNxt)構成的集合。

為了使得所研究的問題有意義,我們做出下述假設。

(A.2.3)假設系統(2.36)是隨機穩定的。

類似于有限時間Nash博弈的結果,我們有如下結論。

定理2.4 在假設(A.2.3)成立的條件下,假設如下推廣的Riccati方程存在對稱的正定解P1P2Rn×n

其中

定義策略組(F*1xtF*2xt

則(F*1xtF*2xt)∈F2,且該策略組(F*1xtF*2xt)是博弈問題(2.34)和(2.35)的一個Nash均衡點。

證明:定義哈密爾頓函數

根據最大值原理知

其中(yitzit)是下述伴隨方程的解

其中P1=PΤ1Rn×nP2=PΤ2Rn×n是常數矩陣。

y1t=P1xty2t=P2xt應用It?公式,得

比較式(2.43)中擴散項的系數,得

將式(2.42)和(2.44)代入式(2.40),得最優控制

于是有

將式(2.45)代回上式,從而得到式(2.37),證畢。□

主站蜘蛛池模板: 蒙城县| 清镇市| 牟定县| 乳源| 商河县| 安宁市| 尉犁县| 舟山市| 新邵县| 渝中区| 南阳市| 宝鸡市| 清镇市| 若尔盖县| 长沙市| 衡阳市| 吴川市| 泰州市| 宿松县| 克山县| 大城县| 疏勒县| 南漳县| 万年县| 宁蒗| 玛曲县| 榆林市| 永新县| 大洼县| 平罗县| 新竹县| 封丘县| 资兴市| 大竹县| 商南县| 密云县| 高要市| 西宁市| 临汾市| 台江县| 石柱|