- 基于圖模型的多維時間序列分析
- 高偉
- 4291字
- 2020-09-29 16:55:34
1.2 多維時間序列圖模型的基本知識
本節介紹相關的圖模型基本概念和定理(Whittaker[18],Lauritzen[19])及幾類多維數據和多維時間序列的圖模型.
1.2.1 圖模型基本概念和術語
圖G=(V,E)由兩個集合組成,其中有限集合V 被稱為頂點集,邊集E由從頂點集中取出的元素對組成.如果E同時包含(i, j)和( j,i),則稱頂點之間存在無向邊.如果只有(i, j)∈E,則稱頂點之間存在從i到 j的有向邊(或箭頭).稱(i,i)∈E為一個環.稱只有無向邊的圖為無向圖.
本書只考慮不包含環的簡單圖.圖中每一個頂點均用一個圓圈表示;如果有兩個頂點之間存在無向邊,就用線連接對應的兩個圓圈;用箭頭表示有向邊.這就構成了圖的圖形表示.
設A是圖G=(V,E)的頂點集V 的一個非空子集,以A作為頂點集,以兩端點均在A中的邊的全體為邊集的子圖,被稱為由A導出的G的子圖,記為GA=(V, EA),即GA是G的導出子圖(Induced Subgraph).
每一對不同的頂點均有一條有向邊或無向邊相連的圖被稱為完全圖(Complete Graph).如果某子集的導出子圖是完全圖,再加入一個頂點會導致不完全子圖,則稱這個子集是一個團(Clique).
如果存在從i指向 j的有向邊,則稱i為 j的父親(Parent),j為i的孩子(Child).j的父親集記為pa( j),i的孩子集記為ch(i).如果i和 j之間存在無向邊,則稱i和 j是相鄰的或是鄰居(Neighbour),頂點i的鄰居集表示為ne ( i).如果i和 j之間既沒有有向邊,也沒有無向邊,則稱i和 j不相鄰.
分別用pa ( A),ch ( A),ne ( A)表示集合A中元素的那些不在A中的父親集、孩子集、鄰居集:.
子集A的邊界bd ( A)是V\A中A的父親集或鄰居集,即bd ( A)=pa ( A)∪ne ( A).
不同頂點組成的從i到 j的序列i=i0,i1,…,in= j,如果滿足條件:對k=1,2,…,n,有(ik-1,ik)∈E,則稱該序列為從i到 j的長為n的路.如果存在從i到 j的路,則稱i導致 j,記為.如果
和
同時成立,則稱i和 j是相連的,記為i? j.如果圖中所有頂點都是相連的,則稱圖為連通圖.?是一個等價關系,對應等價類[i],其中 j∈[i]?i? j,是圖G的連通元素.如果存在從i到 j的有向路i→…→ j,并且i= j,則稱路組成了一個循環.
如果所有從i 到 j 的路都通過子集C?V,則稱C 為一個(i, j) 分離子(Separator).在無向圖中,C是一個(i, j)分離子當且僅當[i]V\C≠[ j]V\C.如果對于每一對i∈A, j∈B,C都是(i, j)分離子,則稱子集C從A分離B.
如果頂點i滿足條件和
,則稱i為 j的祖先(Ancestor),記為an ( j);i的后代de(i)為滿足條件
和
的頂點 j.非后代為nd(i)=V\(de(i)∪i).
如果對于所有i∈A,有bd ( i)?A,則稱A是一個祖先集(Ancestralset).在一個有向圖中,集合A是祖先集當且僅當對于所有i∈A,an(i)?A成立.在一個無向圖中,祖先集是連通元素的并集.祖先集的交集仍為祖先集.因此,對于任意的頂點集A,存在最小的包含A的祖先集,記為an(A).
1.2.2 多維數據的圖模型
1.條件獨立圖
設連續型隨機變量X和Y,其邊緣概率密度函數分別為 fX(x)和 fY(y),聯合概率密度函數為 fX,Y(x, y).在給定Y的條件下, X 的條件概率密度函數為

如果對?x, y,以下等式成立:

則稱X 和Y獨立,記為X ⊥Y.
如果對滿足條件 fX(x)>0的?x,y,z,以下等式成立:

則稱在給定X 的條件下,Y和Z條件獨立,記為Y ⊥Z|X.
Whittaker[18]證明了條件獨立性滿足下面的塊獨立引理(或稱交叉性質),定義了條件獨立圖模型并證明了條件獨立圖的分離定理.
命題 1.1(塊獨立引理) 如果(X,Y,Z1,Z2)是隨機向量的一個分割,并且聯合概率密度函數 f (·)是正定的,則下面兩個結論等價:
(1)Y ⊥(Z1,Z2)|X;
(2)Y ⊥Z1|(X,Z2)和Y ⊥Z2|(X,Z1).
塊獨立引理的重要性在于可以用兩個變量成對條件獨立的描述建立多個變量群體條件獨立的描述.
定義1.2(條件獨立圖) 設變量集合(X1,X2,…,Xn),無向圖G=(V,E),頂點集V={1,2,…,n},其中頂點i表示隨機變量Xi,兩個頂點i和j之間存在無向邊對應于在給定除i和j表示的變量外的所有其他變量的條件下,頂點i和j所表示的隨機變量之間存在條件相依聯系,稱這樣的圖為條件獨立圖(Conditional Independence Graph,CIG).
圖 1.1 是一個條件獨立圖的示意圖,頂點集V={1,2,3,4}表示隨機變量集合(X1,X2,X3,X4),從圖 1.1 中可知,在給定變量X1和X2的條件下,變量X3和X4不是條件獨立的;而在給定變量X2和X4的條件下,變量X1和X3是條件獨立的,因為在圖1.1中,頂點X1和X3不是鄰居.

圖1.1 條件獨立圖
條件獨立圖主要描述變量之間的相依聯系,特別是兩個頂點是否相鄰,如果不相鄰,則描述它們是如何被分離的.Whittaker[18]提出的條件獨立圖的分離定理(或稱整體Markov性質)從理論上證明了,不相鄰的變量在僅給定分離集的條件下是獨立的.
定理1.3(分離定理) 如果XA、XB和XC是由(X1,X2,…,Xn)中的不交子集組成的隨機向量,且在(X1,X2,…,Xn)的條件獨立圖中,B中的每個頂點和C中的每個頂點都被子集A分離,則有

2.有向非循環圖
對條件獨立圖中的每個邊,都給出一個方向,就引入了變量之間相依聯系的因果關系概念.Whittaker[18]證明了,在假設圖中的頂點為完全排序的條件下可以排除存在循環的情況.有向非循環圖僅包含有向邊(→),并且所有的路都不組成循環,具有簡單的因果可解釋性和建模要求的性質,在實際中常用來表示各種數據的產生過程.
定義 1.4(有向非循環圖) 在條件獨立圖G=(V, E)中,給定無向邊的方向,用于表示變量之間因果關系的方向,則G成為有向圖.如果在G中從任意頂點i∈V出發,沿相同方向的邊走下去,不能回到i,稱這樣的圖為有向非循環圖(DAG).
對于一個有向非循環圖 G=(V, E),G中所有頂點表示的多維隨機變量的聯合概率密度函數可以被分解成每個頂點表示的變量在給定其父親頂點表示的變量的條件下的概率密度函數的乘積

在許多情形下,比較容易得到的是描述系統中變量之間條件獨立性的條件獨立圖.但是,能夠表示系統因果結構的是有向非循環圖.為達到因果推斷的目的,必須先考慮哪些可能的有向非循環圖會產生觀測到的條件獨立圖.這就需要首先知道這些條件獨立圖是如何由有向非循環圖產生的.
定義1.5(交叉) 在有向非循環圖G=(V, E)中,如果有i→ j←k且在i和k之間沒有邊,則稱i→ j←k是一個交叉(Immorality).
圖1.2(a)就是一個交叉的例子.
定義1.6(Wermuth條件) 如果一個有向圖G不包含如圖1.2(a)所示結構的子圖,則稱圖G滿足Wermuth條件.
同一個模型的條件獨立圖和有向非循環圖表示之間存在如下關系.
定義 1.7 (圖的相容性) 如果條件獨立圖GU=(V, EU)和有向非循環圖G D=(V, E D)表示的條件獨立結構是等價的,則稱圖GU和G D是相容的(Consistent).

圖1.2 一個交叉的例子
Whittaker[18]證明了,與圖1.2(a)(即定義1.5中的交叉)相容的無向圖是圖1.2(b).
定義1.8(去交叉圖) 設是一個有向非循環圖,G m=(V, E m)是一個無向圖,其頂點集和
的相同,邊集包含
中的所有邊和從
中消除禁止的Wermuth條件需要增加的邊,則稱G m是
的去交叉圖(Moral Graph).
定理1.9 有向非循環圖與其去交叉圖G m具有同樣的Markov性質.
因此,要建立可能產生觀測到的條件獨立圖的有向非循環圖,首先要對邊安排方向,然后考慮是否去掉那些為了消除禁止的 Wermuth 條件而增加的邊.與有向非循環圖交叉后得到唯一的條件獨立圖不同,一般沒有唯一的與原來的條件獨立圖相容的有向非循環圖(Spirtes等[9],Pearl[67]).一個例子如圖1.3所示,圖(a)為一個條件獨立圖,圖(b)~(d)為與圖(a)相容的部分有向非循環圖.

圖1.3 一個例子
1.2.3 多維時間序列圖模型
1.多維時間序列的偏相關圖
假設{Yi,t,t∈Z}(i∈V)是一個K維時間序列,其中頂點集V={1,2,…,K}.為定義時間序列{Yj,t}和{Yk,t(} j,k∈V)的偏相關關系,Dahlhaus[29]首先定義了偏誤差過程{Yj|V\{j,k},t},用于表示從時間序列{Yj,t}中去掉除{Yk,t}外其他序列的線性影響后的殘差序列

式中,和
為使下式

值最小的μj和φj(u).
定義1.10(時間序列的偏不相關) 考慮多維時間序列{Yi,t,t∈Z}( i∈V),如果對于所有滯后階數u∈Z,隨機變量Yj|V\{j,k},t和Yk|V\{j,k},t+u都是不相關的,則稱序列Yj和Yk( j, k∈V)在給定剩余分量序列YV\{j,k}的條件下是偏不相關的,記為

定義1.11(偏相關圖) 設{Yi,t,t∈Z}(i∈V)是一個多維時間序列,G=(V,E)是一個無向圖.如果對于所有 j, k∈V,以下關系成立

則稱G為{Yi,t,t∈Z}的偏相關圖.
2.結構向量自回歸模型的有向非循環圖
在時間序列典型向量自回歸(Canonical Vector Auto Regressive,CVAR)模型中,僅允許存在當前時刻變量與過去值的相依聯系,殘差通常表示存在同期相依聯系.與之對應的結構向量自回歸(VAR)模型允許存在當前時刻變量之間的同期相依聯系,而假定殘差不存在同期相依聯系,模型的遞歸結構可以用有向非循環圖描述.Reale[35]以多維時間序列的結構表示以及有效的參數化(即稀疏的參數結構)為目標考慮建模方法,提出了用有向非循環圖辨識結構VAR模型的稀疏結構和因果關系.
定義1.12(VAR(p)模型) 設平穩過程{Yt, t∈Z}均值為0,對任意t,有

式中,Yt=(Y1,t,Y2,t,…,Yk,t)′,A1,A2,…,Ap為k×k矩陣.{Ut}為序列無關的隨機向量序列,其數學期望E[Ut]=0,協方差矩陣Σ=E[UtUt′],一般設Ut是多元正態隨機向量.稱{Yt,t∈Z}是均值為0的p階VAR模型,其中稱Yt=(Y1,t,Y2,t,…,Yk,t)′為當前變量(Current Variables)或同期變量(Contemporaneous Variables),稱Yt-u=(Y1,t-u,…,Yk,t-u)′(u=1,2,…, p)為滯后變量(Lag Variables).
定義1.13(結構VAR(p)模型) 式(1-10)兩邊左乘矩陣Φ0,Φ0使D=Φ0ΣΦ0′ 成為對角矩陣

式中,,Φ0Ut=at,E[atat′]=D.稱模型(1-11)為結構VAR(p)模型.
模型(1-11)的一種更常用的表示形式為

式中,I為k×k單位矩陣.
以下考慮模型(1-12)的圖模型表示.
定義1.14(結構VAR(p)模型的條件獨立圖) 設平穩過程{Yt, t∈Z}為結構VAR(p)模型,圖G=(V, E)的頂點集V 由Yt,Yt-1,…,Yt-p的分量組成.兩個頂點Yi,t-u和Yj,t-v之間沒有邊相連當且僅當在給定除Yi,t-u和Yj,t-v外的所有其他變量的條件下Yi,t-u和Yj,t-v是條件獨立的.假設模型(1-12)中at是多元正態隨機向量,則條件獨立表示條件偏自相關系數為0,即

式中,{Yk,t-ω}表示除Yi,t-u和Yj,t-u外所有到滯后階數p的變量集合;h和l分別表示變量Yi,t-u和Yj,t-v在矩陣W 和ΣY中的標號,并且,ΣY為圖G中所有變量集合的協方差矩陣.則稱圖G為結構VAR(p)模型的條件獨立圖.
定義1.15(結構VAR(p)模型的有向非循環圖[5]) 設平穩過程{Yt, t∈Z}為結構VAR(p)模型,圖G=(V, E)的頂點集V 由Yt,Yt-1,…,Yt-p的分量組成,存在從Yi,t-u到Yj,t-v的有向邊當且僅當下面兩個條件之一成立:
(a) 0<u-v≤p,矩陣的第 j行第i列元素不為0;
(b) u=v,i≠ j,矩陣( I-Φ0)的第 j行第i列元素不為0.
則稱圖G為結構VAR(p)模型的有向非循環圖.