官术网_书友最值得收藏!

1.1 多維時間序列圖模型概述

1.1.1 圖模型的研究概況

圖模型的起源可以追溯到以下領域的研究工作:在物理學中,Gibbs[1]用無向圖中頂點的最近鄰居個數描述了粒子系統的整體能量;在基因學中,Wright[2]用有向圖(Path Analysis,路徑分析)描述了基因數據如何由一個假設的過程產生,并檢驗了這個假設和觀測數據的相容性;在概率論中,Markov[3]提出了用條件獨立性的概念,把一些看起來復雜的聯系結構解釋為簡單相關關系的鏈;在統計學中,Bartlett[4]研究了三聯表的相互作用,對于多維數據的相關關系,得到了類似于統計物理中相互作用的描述.到20世紀70年代,Wermuth[5]和Darroch等[6]認識到了上述研究成果在本質上的相似性,并進行了研究和拓展,形成了多維數據圖模型的統一理論,從而使圖模型表示離散和連續隨機變量的相關關系的方法得到系統發展.

圖模型用圖論的方法描述和處理多維隨機變量之間的因果關系,用有向圖中的有向邊表示對應變量之間的因果關系,使變量的因果關系結構變得可視化.Wermuth和Lauritzen[7]把響應變量和解釋變量之間的關系引入統計模型之中,得到了有向非循環圖和鏈圖.Pearl[8]和Spirtes等[9]用有向非循環圖解釋、推測和發現變量之間的因果關系,建立了基于圖模型的因果分析方法.在大規模系統中,有向圖模型的應用也得到了重視和發展[10-13].

Dempster[14]提出的隨機變量服從高斯分布的概率圖模型,即高斯圖模型(Guassian Graphical Model,GGM),是一類特殊的圖模型,其作為一種推斷隨機變量之間不確定性和復雜性的有力工具,在經濟學、醫學、自然科學等[15-17]多個領域得到廣泛的應用.

圖模型在理論和應用研究上都取得了突破性的進展,國內外學者關于圖模型在統計學上的理論研究成果可參考文獻[18-22],關于圖模型在其他不同領域的應用可參考文獻[23-27].

1.1.2 多維時間序列圖模型的研究現狀

多維時間序列的圖模型起源于多維數據的條件獨立圖在多維時間序列場合的推廣.Brillinger[28]和Dahlhaus[29]將多維數據條件獨立圖的概念推廣到多維時間序列中,用圖中的一個頂點表示多維時間序列的一個分量序列,引入圖模型作為工具來刻畫分量序列之間的相互作用結構,建立了無向的偏相關圖.

對于觀測數據,需要估計過程的真實偏相關圖.Dahlhaus 等[29,30]提出,用非參數方法估計偏譜相關作為檢驗偏相關圖中邊的存在性的統計量.Eichler[31]指出,對數據擬合一個參數模型,可以將偏相關圖的估計轉化成模型選擇問題.Fried等[32]研究了偏相關圖的可分解性和模型選擇問題.

偏相關圖中的頂點集表示了一個完整的一維時間序列,其滯后階數可以很大,主要用于研究多維時間序列整體上的相依聯系,但是不包含具體滯后相依聯系的動態信息.

Lynggaard[33]提出了用條件高斯分布的鏈圖對時間序列的相依聯系建模,用頂點表示時間序列在固定時刻的隨機變量.Swanson 等[34]指出,變量之間的相依聯系可以直接表示為一個有向非循環圖(Directed Acyclic Graph,DAG),用頂點表示變量,用頂點之間的有向邊表示因果關系的方向.

Reale等[35-37]研究了圖模型(主要是無向圖和有向非循環圖)在結構VAR(向量自回歸)模型和結構VARMA(Vector Auto Regressive Moving Average,向量自回歸滑動平均)模型辨識中的應用.Moneta[38]將變量之間的相依聯系解釋為因果關系,圖對應于模型的因果結構,研究了結構VAR模型的辨識方法.

有向非循環圖可以從直觀上辨識時間序列圖模型的稀疏結構,減少要估計的參數個數,從而降低參數估計的偏差.其缺點是滯后階數不能太大,否則會使得圖中的頂點數和模型中的參數增多,給模型辨識帶來困難.

包含隱變量的時間序列圖模型也得到了發展.Frieda和Didelez[39]研究了多維時間序列潛在的隱變量影響,利用偏相關圖的可壓縮性與分離性建立了一個由隱變量序列部分和觀測變量序列部分組成的鏈圖模型,進一步完善了多維時間序列的偏相關圖.Chu[40]基于可加模型回歸研究了一類可加非線性時間序列的因果關系推斷問題,其中僅假設當前變量受隱變量影響,提出了正態分布下模型的因果結構辨識方法.Gao 和 Tian[41]將多維數據的祖先圖模型推廣到時間序列中,對受隱變量影響的多維時間序列獨立性結構建模.

近年來,圖模型和Granger因果關系[42]在時間序列數據分析領域得到了廣泛的關注.Eichler[43]把圖模型和Granger非因果關系概念相結合,得到了Granger因果圖,用以建模、辨識和實現多維時間序列分量序列之間的因果關系.Gao 和 Tian[44]基于信息論的方法,崔玉峰和李元[45]基于頻域方法檢驗多維時間序列分量序列之間的因果關系,建立了Granger因果圖.

隨著時間序列維數的增加,未知參數的個數呈指數式增長,給圖模型的建立帶來了極大困難.Tibshirani[46]提出了Lasso (Least absolute shrinkage and selection operator)方法,通過構造一個?1范數的懲罰函數,實現模型的稀疏化,這對于處理高維數據的估計非常有效.Lasso方法及其推廣,如組Lasso方法等(Yuan等[47]),被廣泛應用于多維時間序列圖模型中,用于解決高維數據的估計問題.

基于VAR模型的稀疏化約束,將Granger因果關系檢驗問題轉化為變量選擇問題,由此,Arnold等[48]提出了基于Lasso方法的因果關系概念,稱之為圖Lasso Granger方法(Graphical Lasso Granger,GLG)。這種方法用Lasso方法估計的回歸系數辨識Ganger因果關系的存在性,并在多個領域得到應用[49,50].

上述研究大多基于靜態圖模型,即假設圖模型的結構是不隨時間改變的.然而,在實際問題的研究中發現,存在很多相依聯系隨時間改變的情況,例如,生物領域的基因數據網絡,金融領域股票之間的條件獨立圖模型等,都可能隨時間而改變.多維時間序列數據在每個時間點上只有一個觀測值,不同時刻的相依聯系可能很不相同,這一特殊數據結構使多維時間序列時變圖模型的統計與推斷成為一個非常具有挑戰性的問題.

Song 等[51]提出時變動態 Bayesian 網(或稱有向非循環圖),對非平穩時間序列的有向圖模型結構隨時間的演變建模.他們假設圖模型結構是稀疏的,并且隨時間光滑變化,提出了用核再加權?1正則化方法學習圖模型的結構演變.Zhou等[52]首次研究了時變高斯圖模型的懲罰估計,假設在每個時間點上的觀測值來自獨立于其他觀測值的高斯分布,在稀疏假定下用Lasso方法求解優化問題,學習圖模型結構.近年來,GGM的多任務稀疏化學習方法發展迅速(劉建偉等[53]).Zhang等[54]和Yang等[55]利用有序融合罰對多個概率圖模型進行多任務稀疏化學習,在目標函數中包含兩個懲罰項:?1范數懲罰項用于實現稀疏解,附加的融合懲罰項促使相鄰的概率圖模型結構相似,并通過求解優化問題,聯合學習時變圖模型結構.

Xuan等[56]和Dobingeon等[57]研究了基于變點的算法,首先將時間序列分割,然后對每一段分別擬合一個不變的圖模型結構.Grzegorczyk 等[58]結合 Bayesian 網和Bayesian 變點檢測過程提出了動態 Bayesian 網的結構學習方法,其中變點個數和位置用MCMC方法從后驗分布抽樣中得到.Kolar等[59]研究了模型在未知時間點突發變化時的時變協方差矩陣選擇問題,得到了時變無向圖模型的估計.Cribben[60]提出了一種基于譜聚類的網絡變點檢測方法,用于在未知變點個數和位置時檢測多維時間序列網絡的結構變點.

目前,關于高斯圖模型的研究主要集中在單個圖模型的結構學習和應用方面.然而在許多應用領域,數據是具有分組特征的多源數據,來自不同的又有某方面共同特征的系統.如果將隨機變量之間的相依聯系用圖模型表示,則這些圖模型同時具有共同特征和各自獨有的結構.例如,對于經濟發展水平不同的地區,用于表示其宏觀經濟變量之間相關關系的圖模型,除各自獨有的邊外,又存在表示相同的條件相關關系和條件獨立關系的邊.如果分別估計單個圖模型,會忽視共同結構信息.聯合估計方法通過對組間差異的約束同時估計具有共性和個性特征的多個圖模型.Guo等[61]通過分層懲罰來處理多個圖模型精度矩陣中共同的零元素,但只考慮了圖模型之間無邊相連的頂點,沒有考慮有邊相連的頂點;Danaher[62]提出了聯合圖Lasso方法,通過廣義融合Lasso或組Lasso約束類之間的差異來估計多個高斯圖模型.Zhu等[63]對精度矩陣之間的每個差異引入懲罰,以解決聯合估計問題.張凌潔等[64]提出了一種連接單個圖模型的分層懲罰方法對多個圖模型進行估計.Yang等[55]提出了一個融合多類圖Lasso模型,該模型加入了一個融合Lasso懲罰來激勵相鄰圖之間的某些共性,并提出了一個能將高維圖估計分解成多個更小的子圖估計的篩選準則.上述方法在聯合估計多個圖模型的結構時,并沒有用到多源數據結構已知的信息.Tao等[65]利用多個高斯圖模型結構的共同信息,施加聯合稀疏懲罰,使圖模型具有相似的稀疏結構.Ma等[66]在模型相依聯系之間存在先驗信息的條件下,聯合估計多個高斯圖模型,并證明了其提出方法的相容性.

綜上所述,多維時間序列圖模型一直都是相關研究的熱點問題.本書整理了多維時間序列非線性相依聯系、Granger因果關系、時變相依聯系及多個高斯圖模型的推斷和應用問題.

主站蜘蛛池模板: 五指山市| 云和县| 灵丘县| 榆社县| 锡林浩特市| 综艺| 建水县| 建瓯市| 通河县| 民县| 同心县| 枝江市| 翼城县| 容城县| 临泉县| 临高县| 巴林左旗| 郸城县| 凤翔县| 隆德县| 东乌珠穆沁旗| 微山县| 定日县| 昭苏县| 囊谦县| 探索| 江孜县| 宁化县| 抚宁县| 博湖县| 冷水江市| 峨眉山市| 申扎县| 静安区| 河曲县| 哈巴河县| 比如县| 承德县| 呈贡县| 万年县| 姚安县|