官术网_书友最值得收藏!

2.1 非線性時間序列相依聯系的條件互信息檢驗方法

要建立觀測數據的圖模型,其中一個重要的步驟就是檢驗圖中的邊所表示的獨立性.要利用時間序列圖模型對數據進行分析,需要先建立當前變量Xt對滯后變量Xt-1Xt-2,…, Xt-pεt-1εt-2,…,εt-q的回歸模型.因此在時間序列分析中,變量的選擇問題就是如何選擇合適的滯后變量以引入模型.

基于 Shannon 熵構造的用于度量時間序列相依聯系的互信息統計量需要對概率密度函數進行估計,計算過程比較煩瑣.Gao等[90]考慮基于2階Renyi熵構造統計量,用于檢驗非線性時間序列的相依聯系,可以用關聯積分進行估計.由定義式(1-29)可得,H2X)存在的條件是:概率密度函數 fXx)在概率空間上是平方可積的,因此本書涉及的基于信息論方法的檢驗均假設出現的概率密度函數都是平方可積的,并且假設時間序列都是嚴平穩的,即任意有限維聯合分布函數不隨時間平移而改變.

2.1.1 廣義條件互信息度量的性質和估計

首先給出廣義條件互信息統計量的定義.不失一般性,考慮三個隨機變量XYZ之間的聯系,以 q 階條件互信息IqXY|Z)為例研究廣義條件互信息度量的性質和估計.作為IqXY|Z)的特殊情形,容易推出,這些性質對于互信息IXY)也成立.

定理2.1 式(1-25)定義的條件互信息

滿足下面性質:

當且僅當在給定Z的條件下隨機變量XY是條件獨立的.

證明 Kullback-Leibler信息偏差

具有性質If1f2)=0,當且僅當 f1= f2.

f1= fXYZxyz),f2= fX|Zx|zfY|Zy|zfZz),即可得到定理的結果.證畢.

定理2.2 q階條件互信息IqXY|Z)在連續可導的一一映射下是不變的.

證明 假設一一變換h1h2h3連續可導.令 X*=h1X), Y*=h2Y), Z*=h3Z),用gg13g23g3分別表示(X*Y*Z*)的聯合概率密度函數、(X*Z*)的邊緣概率密度函數、(Y*Z*)的邊緣概率密度函數和Z*的概率密度函數,則

證畢.

由Whittaker[18]的命題6.4.6和推論5.8.2,可以得到下面的定理.

定理 2.3k維正態分布隨機向量 X=( X1X2 ,…, X k)的均值向量為μ,協方差矩陣為Σ.令,其中, wiiw jjwij是矩陣 W 中的元素,則

證明 不失一般性,XiX j分別取為X1X2,定義Xc=X\{X1X2},ΣcXc的協方差矩陣.在正態分布情形下,由式(1-38)的定義可知,在給定Xc的條件下,X1X2的線性條件互信息為

式中,Σ-11是(X2Xc)的協方差矩陣,即從Σ中去掉第1行和第1列元素后的矩陣.

將協方差矩陣Σ分解為

式中,Σic是( X1X2Xc)(i=1,2)的協方差矩陣.

由式(2-4)得

因此

由式(2-6)、式(2-7)和式(2-8)可得

WΣ的逆矩陣可得

最后把式(2-9)和式(2-10)代入式(2-3),得

證畢.

由定理2.1可知,q=1階條件互信息IXY|Z)是條件獨立性的一個無界的度量,這里定義互信息的一個變換

同理,定義條件互信息統計量的一個變換

以下推導GXY)和TXY|Z)的估計.

首先看隨機向量關聯積分的估計.m維隨機向量X=(X1X2,…, Xm)的2階關聯積分為

式中, I(·)表示取值為0或1的示性函數,,參數ε為尺度參數.

定義式(2-14)即示性函數I(·)的期望,可以直接由U統計量進行估計.設得到Xn個觀測樣本,記為x(1)x(2),…, xn,則

接下來用關聯積分估計隨機變量的條件互信息.由定義式(1-29)可得,隨機變量Xq=2階Renyi熵為

隨機變量X 的2階Renyi熵和關聯積分CXε)有如下聯系(Grassberger [91]):

對于基于 2 階互信息構造的統計量的估計,為方便起見,這里仍用分別表示互信息和條件互信息的估計如下:

注:選擇q=2階條件互信息的優點是,對觀測值計算Renyi熵比較簡單,可以用關聯積分來進行計算.但問題在于, I2XY|Z)可能是負的,且I2XY|Z)=0不一定意味著在給定Z的條件下XY是條件獨立的.Pompe[92]提出,把數據變換為具有均勻分布的數據,保證廣義互信息是非負的,并且僅在兩個隨機變量獨立時為0.但這個方法對于廣義條件互信息并不成立.實際上,I2XY|Z)的行為和I1XY|Z)的行為非常類似.數值模擬結果也驗證了在檢驗條件獨立性時,基于I2XY|Z)構造的統計量和基于I1XY|Z)構造的統計量具有相同的結果.

2.1.2 非線性時間序列相依聯系的條件互信息檢驗

設得到嚴平穩時間序列{XttZ}的n個觀測值,定義M 維延遲向量,其中, M為事先確定的正整數.

表示中由除X t-j外所有的其他變量組成的向量.檢驗在給定的條件下, XtXt-j的條件獨立性的原假設和備擇假設如下:

H0:在給定的條件下, XtXt-j是條件獨立的.

H1:在給定的條件下, XtXt-j是條件相依的.

由定理2.1可知, X tX t-j之間條件獨立性的度量為

利用TjXtXt-j|)作為條件獨立性度量可以捕捉在給定時間序列中間值條件下的相依聯系,同時提供時間序列相依聯系的滯后階數信息.

用2階關聯積分估計TjXtXt-j|),由式(2-19),在給定的條件下,X tX t-j之間的2階條件互信息為

Cjε)、分別表示關聯積分的簡寫形式,則T j的估計

U統計量的相合性,可以得到的相合性.

定理2.4 估計T j的相合估計,即當n→∞時,有,其中表示依概率收斂.

證明U統計量的相合性,有.因此分別是C jε)的相合估計.由文獻[93]中的定理1.5和式(2-21)可得定理結果.證畢.

的漸近正態性證明需要用到一個引理,即文獻[94]中的定理1.

引理 2.5hRmR為一個非退化的核函數,令{XnnZ}為一個嚴平穩隨機過程.如果滿足下面的條件之一,則(n/n)(Unh)的漸近分布為標準正態分布:

(a)( X nn≥1在兩個時間方向上是均勻混合的,,對于α>0,下式成立:

(b)(Xnn≥1在兩個時間方向上是均勻混合的,混合系數φn)滿足以下條件:

(c)(Xnn≥1是絕對正則的,對某些α>0,σ2≠0,系數βn)滿足以下條件:

式中,σ2表示Unh)的分解中第1項的方差和漸近方差.

定理2.6 在獨立同分布過程的原假設下,當樣本量n→∞時,的漸近分布為

式中,表示依分布收斂.由于ε是固定的,因此在下面的記號中省略ε,記CjCjε),.

證明 設{YttZ}為一個Rm值隨機過程,觀測值分別為y1y2,…, yn.其2階U統計量定義為

式中,hRm×RmR,且hxy)=hyx).

由于在關聯積分中示性函數是有界的,即在0和1之間,滿足文獻[94]中的矩條件.另外,在嚴平穩性和條件獨立性的假設下,弱相依條件也總是滿足.定義下面的U統計量和U統計量的函數:

注意,g jU統計量的函數.由于在嚴平穩性和條件獨立性的假設下,當n→∞時,分別依概率收斂到Cj(推導可以從U統計量的性質直接得到).因此,當n→∞時,gj依概率收斂到0.換言之,在獨立同分布的條件下, DG在樣本值上是0.

DkGk分別表示DGkk=1,2,3,4)階偏導數在值上的取值.

對任意滿足條件的光滑函數H,在值上進行泰勒展開,取n→∞時的極限,得到

式中,所有的偏導數Hi i=1,2,3,4)均在值上進行計算,lim表示當n→∞時依分布取極限.N(0,σ2)表示均值為0且方差為σ2的正態分布.注意,式(2-25)的右邊是U統計量的線性組合,因此函數GD (對應于H=GD)也分別是U統計量.令Tj分別表示當H=GD時式(2-25)中的線性項,特別有

由式(2-25)可推出

式中,

式(2-28)中的極限可以直接求期望得到.結合式(2-26),得

式中,

因此再由式(2-27)可得

證畢.

在實際應用中,應該特別注意參數ε的選擇.由式(2-17)和定理 2.6 的證明過程可知,估計的精度隨ε的減小而增大,標準差隨ε的減小而減小.一般選擇ε=0.5σX,1.0σX,1.5σX,其中,σX是隨機過程的標準差.

在給定的條件下,檢驗XtXt-j條件獨立性的具體步驟如下.

步驟1:對于選定的顯著性水平和初始樣本,首先根據估計的殘差,產生獨立同分布隨機變量序列,并計算統計量取值.

步驟 2:步驟 1 重復B次,得到B組初始樣本,并分別計算統計量取值.

步驟3:利用經驗分布

作為T j在原假設成立下的分布的近似,計算臨界值Cα,即的1分位數,其中,α為選定的顯著性水平.

步驟4:計算初始樣本的統計量取值.

步驟5:如果,則拒絕XtXt-j之間條件獨立性的原假設.

2.1.3 數值模擬與分析

本節用數值模擬方式驗證統計量檢驗條件獨立性的能力.如果不做特別說明,所有模擬都重復 200 次.并且需要對每個時間序列進行預處理,轉換為 0 均值和單位方差的數據.

對有限樣本量,估計是有偏差的.為發現偏差和樣本量大小之間的聯系,生成了樣本量 n 分別為100,200,300,500,1000,3000時的獨立同分布的標準正態分布隨機變量數據.然后,計算取不同滯后階數 j=1,2,…,5時的值.表2.1給出了在不同樣本量下重復200次估計得到的的均值和標準差.

表2.1 根據不同樣本量計算的的均值和標準差

注:括號內的數字為估計的標準差,以下不再說明.

對于下面提到的模型,如果沒有特別說明,都取相同的ε.這里選擇ε=0.5的原因是,當ε=0.5時,的標準差最接近文獻[78]的表2.1中的值,便于對檢驗結果進行比較分析.

表2.2給出了對樣本量n=300,重復進行1000次模擬,得到的的均值、標準差和各顯著性水平下的臨界值.表 2.2 中的結果表明,對于樣本量n=300,檢驗獨立性原假設的置信水平為95%時的臨界值約為 0.03.表 2.2 中最后一行為正態分布N (0,0.022)相同顯著性水平下得到的臨界值.可以看出,模擬得到的臨界值與這些值非常接近,進一步驗證了獨立同分布假設下的漸近正態性.

表2.2 n=300,模擬1000次,的均值、標準差和臨界值

下面產生各種類型的時間序列數據來檢驗的能力.為了進行比較分析,采用文獻[78]中的10個模型:模型1~5為MA(Moving Average,滑動平均)模型,模型6~10為AR(自回歸)模型,模型中, et是獨立同分布的標準正態分布隨機變量.

表2.3給出了模型1~5的檢驗結果.模型1為一個非線性MA(1)模型,理論上,除G1外所有的G j都應該是0.在表2.3“模型1”列中,是0.1267,其他的接近于0,即獨立情形的均值.類似的結果對模型2(非線性MA(2))和模型3(非線性MA(3))也成立,都只有相應滯后階數隨機變量的自回歸系數非0.模型4也是非線性MA(3),但同時具有1、2、3階的滯后相依聯系.與表2.2中的95%臨界值(約為0.03)相比,表2.3“模型4”列中的都大于臨界值,拒絕不存在相依聯系(即系數為0)的原假設.

表2.3 模型1~5的檢驗結果:的均值和標準差

表2.4給出了模型5~10的檢驗結果.對于AR模型5、6和7,j的增大而減小.對于隨機游動模型8,保持一個相當大的值,并且隨 j的增大,其減小變緩慢,不能準確檢驗出與1階滯后變量X t-1的相依聯系.

模型9是一個雙線性模型,表2.4“模型9”列中的都大于95%臨界值(約為 0.03),驗證了檢驗時間序列中非線性相依聯系的能力.模型 10 是一個具有 1階滯后相依聯系的非線性時間序列,都大于95%臨界值(約為0.03).

表2.4 模型5~10的檢驗結果:的均值和標準差

對于模型 1~9,利用統計量得到了與文獻[78]中統計量R相同的結果,證明了對于這些模型中的相依聯系檢驗問題,用廣義關聯積分估計的基于 2 階廣義互信息I2XY)的統計量結果非常接近用概率密度函數估計的基于I1XY)的統計量結果.

要檢驗AR模型5、6、7和8的正確滯后相依聯系,合適的統計量應該是條件互信息度量T.統計量T包含了比G更多的信息,關聯積分中取ε=1.0,并且延遲向量的維數M=5.表2.5給出了樣本量n=500時,重復進行1000次模擬得到的估計量的均值、標準差和臨界值.表 2.5 中最后一行為正態分布N (0,0.1452)相同顯著性水平下的臨界值,可以看出,模擬得到的臨界值與這些值非常接近.這進一步驗證了定理2.6中估計量在獨立同分布假設下的漸近正態性.

表2.5 n=500,模擬1000次,的均值、標準差和臨界值

表2.6給出了5個AR模型的檢驗結果.對模型5、6和7,除外,所有的都大于95%臨界值(約為0.02),這和真實模型中只有一階自回歸系數不為0一致.對于隨機游動模型8,也只有大于95%臨界值.而在文獻[78]中,用Kendall的偏τj,從滯后階數 1 直到滯后階數 8 的檢驗結果都拒絕了不存在相依聯系的原假設.在這種情形下,統計量優于τ.

表2.6 模型5~10的檢驗結果:的均值和標準差

下面 5 個非線性模型可以進一步驗證統計量檢驗非線性時間序列滯后相依聯系的能力.

表 2.7 給出了模型 11~15 的檢驗結果.對于 SETAR(Self-Exciting Threshold Autoregressive,自激勵門限自回歸)模型11和12,EXPAR(Exponential Autoregressive,指數自回歸)模型14,FAR(Functional-Coefficient Autoregressive,函數系數自回歸)模型15,統計量都給出了正確的滯后相依聯系檢驗結果.對于GARCH(Generalized Auto Regressive Conditional Heteroscedastic,廣義自回歸條件異方差)模型13,都是顯著的,這可能是因為 GARCH 模型中的相依聯系是由不可觀測的變異率導致的.關于這些非線性模型的詳細介紹可以參考文獻[95,96].

表2.7 模型11~15的檢驗結果:的均值和標準差

主站蜘蛛池模板: 莱西市| 西乌| 沅江市| 墨脱县| 房产| 微山县| 当雄县| 阳原县| 寿光市| 磐安县| 西盟| 故城县| 龙江县| 墨脱县| 西充县| 同心县| 赤壁市| 会昌县| 文成县| 泗阳县| 沙田区| 鄂尔多斯市| 镇雄县| 定远县| 邳州市| 澜沧| 奇台县| 大同市| 昌吉市| 高淳县| 道孚县| 石嘴山市| 龙川县| 罗山县| 新沂市| 清新县| 南陵县| 开阳县| 伊川县| 河间市| 拉孜县|