- 基于機器學習的數據缺失值填補:理論與方法
- 賴曉晨 張立勇 劉輝 吳霞
- 3571字
- 2020-09-24 10:12:20
1.3 缺失值填補的應用
缺失值填補的應用范圍基本覆蓋了基于數據的科學研究與工業應用領域。下面就醫療、交通、金融、環境與工業5個領域展開探討。
1.醫療
隨著醫療信息化的深入,基于數據驅動的智能診療系統得以開發和應用。智能診療系統能夠基于醫學數據實現自動化診斷、治療方案制定、治療效果跟蹤等功能,從而為醫生提供可靠的決策支持。醫學數據主要來源于醫學影像、電子病歷、電子健康檔案等。然而,由于數據保存不當、醫療信息難以跨平臺共享等因素,醫學數據中往往存在較多缺失數據。而此類缺失數據將直接影響智能診療系統的性能,甚至會導致誤診和臨床試驗的推論錯誤。因此,缺失值填補在醫療中的應用較為廣泛。
在驗證填補方法對醫學數據有效性的研究過程中,Janssen等人利用804例疑似患有深部靜脈血栓形成(Deep Venous Thrombosis,DVT)患者的資料展開實驗論證[30]。該實驗涉及兩種缺失數據刪除方法,即刪除不完整樣本以構成樣本量縮減的完整數據集,以及刪除不完整屬性以構成屬性個數縮減的完整數據集。研究人員在對比上述刪除法和多重填補法后發現,簡單的刪除方法會導致預測的錯誤,而多重填補法能夠獲得較為理想的預測結果,因此建議在醫學研究中采用多重填補等填補方法進行缺失值處理。
在填補方法性能的研究過程中,Jerez等人關注到乳腺癌患者的術后康復問題,并以此展開實驗[31]。乳腺癌患者的術后治療方案取決于對患者疾病情況的準確預測。不合理的治療方案將導致患者出現副作用甚至病情惡化。盡管目前諸多預測模型可輔助醫生進行合理推斷,但臨床醫療數據集中的缺失數據易導致模型預測結果不可靠。為了分析不同缺失值填補方法對乳腺癌患者術后復發情況的預測精度,研究人員對比了均值填補、熱平臺填補、多重填補、K近鄰填補、多層感知機填補、自組織映射填補這6種方法,并通過實驗驗證了在乳腺癌復發預測方面,基于機器學習的填補方法(后三種)明顯優于基于統計學的填補方法(前三種)。
除上述場景外,缺失值填補方法在冠心病及肺癌等疾病的診斷、重癥患者的死亡率風險預測等方面均有應用。在這些應用中,缺失值填補方法能夠有效提升醫學數據的質量,并由此提高智能診療系統的準確度。
2.交通
城鎮化進程的加快、交通信息化的發展促使交通數據迅猛積累,基于大規模的交通數據設計智能交通系統,以此構建經濟、便捷、高效的綜合交通體系是當代城市交通的重要發展方向。但是,交通檢測節點廣泛分布于現實環境中,并且其受環境狀態、節點故障等影響,經常面臨數據缺失問題。在保障智能交通系統的準確性與可靠性方面,缺失值填補方法有重要的應用價值。
針對交通流量數據缺失值問題,研究者常采用自回歸綜合移動平均模型(Auto-Regressive Integrated Moving Average,ARIMA)、前饋神經網絡(Feed Forward Neural Network,FFNN)等填補缺失值。Shang等人結合粒子群算法、支持向量回歸及FCM設計缺失值填補方法,隨后將其應用于上海市南北高架路、廈門市蓮前西路的交通數據中,并且獲得了理想的填補精度[32]。Duan等人設計名為去噪堆疊式自編碼器的深度學習模型,并將其成功應用于美國加州交通局性能測量系統(Caltrans Performance Measurement System,PeMS)所公布的交通數據中[33]。
交通流的實時預測是智能交通系統的重要功能之一。根據預測的交通流信息提前感知擁堵路段并分析擁堵趨勢,是實行智能交通調控的基礎。然而,交通數據中的缺失值不僅增加了預測模型的設計難度,還降低了交通流的預測精度。針對此問題,眾多研究者展開了一系列的理論分析與應用研究。例如,Tian等人基于長短時記憶(Long Short-Term Memory,LSTM)神經網絡、循環神經網絡(Recurrent Neural Network,RNN)設計了具備缺失值處理能力的交通流預測模型。該模型采用多尺度時間平滑(Multiscale Temporal Smoothing,MTS)進行缺失值處理,即模型借助RNN單元從歷史輸入值中隱式地獲取缺失數據的估計值,從而在模型訓練期間合理填補缺失值。上述交通流預測模型被應用于PeMS公布的交通數據中,并獲得了理想的預測效果[34]。
交通信號燈控制系統是智能交通領域的熱門研究方向。此類系統利用基于交通數據建立的模型智能調控交通信號燈,從而對道路上的行人和車輛進行指揮與疏導。然而,交通數據中的缺失值會影響決策的合理性,進而擾亂交通秩序,甚至危害城市的交通安全。因此,面向實時交通數據的高效缺失值填補方法受到越來越多的關注。
3.金融
股票交易是一項高收益、高風險的投資活動,一直以來都是民眾的重要投資方式。為了給投資者提供高回報且低風險的決策建議,大量科研及從業人員通過分析股票數據,對股市的運行機制及股票的價格走勢展開分析。但是由于數據保存不當等原因,股票數據往往面臨缺失值問題。為了提高分析結果的準確性,缺失值填補成為分析股票數據時經常采用的數據預處理方法。例如,Sohae考慮到全球股票市場的相似性,利用世界各國不同的股票數據進行信息共享,并以此設計針對股票數據的多重填補方法[35]。隨著對基于機器學習的填補方法的研究逐漸深入,越來越多的學者致力于將此類填補方法應用于股票等金融數據的缺失值處理任務。
除了股票預測的場景外,缺失值填補方法還在風險控制、金融產品營銷、智能理財等方面具有一定應用價值。隨著大數據與人工智能的發展,基于數據的智能系統為金融領域的技術革新提供了巨大的助力。在風險控制中,利用包含客戶身份、工作、住址、信用等在內的海量數據展開建模,能夠自動化識別欺詐行為,從而更好地實現風險的可控操作。此外,在金融產品的營銷中,基于用戶行為數據分析的產品精準推薦,不僅能夠憑借個性化的服務保障用戶體驗,還能夠深度挖掘用戶喜好并大幅度提升銷售表現。然而,客戶數據中往往存在一定缺失值,例如因數據異常被分析人員刪除所導致的數據缺失,因客戶未填報或存儲不當而導致的數據缺失等。在此情況下,直接刪除不完整樣本通常不具備可行性,原因在于刪除包含缺失值的客戶樣本后,所建模型無法對被刪除的客戶展開判別和分析。因此,缺失值填補在此類場景中的應用較廣泛。
4.環境
基于環境數據的分析能夠對現實環境進行監控和預測,進而指導人類的日常生產活動。環境數據的采集設備一般分布于室外的特定場景,由于設備失靈、環境惡劣等,降水量、氣溫、風速、濕度等環境數據中經常存在數據缺失。為了提高分析和預測模型的精度,研究人員在建模之前通常需要對缺失值進行有效的估計。
針對降水量數據中的缺失值問題,Nkuna等人利用南非盧烏烏胡河流域的真實降水量數據集進行實驗分析。研究人員采用徑向基函數神經網絡(Radial Basis Function Neural Network,RBFNN)設計缺失值填補方法,由此生成可靠的降水量數據。實驗表明,基于RBFNN填補后的降水量數據集能夠進一步用于水文模擬及水資源規劃與管理[36]。此外,Coulibaly等人基于加拿大加蒂諾流域的氣候數據展開缺失值填補的研究。研究人員設計多層感知機填補、循環神經網絡填補、時滯前饋神經網絡填補等多種缺失值填補方法,隨后對氣候數據集中的日降水量與日極端溫度缺失數據進行填補,并獲得了理想的填補精度[37]。
由于空氣污染日益嚴峻,PM2.5等污染因子的檢測與分析備受關注。基于污染數據建立準確的數學模型,對于生態環境的保護有著重要意義。然而,缺失值的存在影響了污染數據的有效分析,故缺失值填補方法在監測與治理環境污染方面有一定的研究價值。例如,在分析唐山市大氣污染數據時,研究人員采用多元線性逐步回歸法建立基于回歸模型的填補方法,由此對大氣中PM2.5的多環芳烴濃度數據進行缺失值填補[38]。
基于真實環境采集到的數據,往往受采集設備、環境影響而出現缺失的情況。在此類數據的建模與分析中,需合理考慮缺失值的有效處理,因此缺失值填補方法具有較大的應用價值。
5.工業
工業過程通常涉及復雜龐大的系統,此類系統易受工作環境中電、磁等噪聲的干擾而處于異常狀態,由此導致采集到的數據丟失或失真。并且,由于各類數據的更新速度可能不同,采集信號的頻率往往存在差異。在采集時間不同步的情況下,若存儲設備出現故障,則會導致樣本中的部分數據丟失。采集數據對于系統的顯示與控制、系統狀態預測等有重要作用,因此,缺失值填補在工業中具有一定的應用價值。例如,研究人員以青霉素生物發酵為背景,基于發酵過程中的菌體濃度、基質濃度、產物濃度等進行生物發酵的軟測量建模,通過將多重填補方法應用于建模過程,獲得了理想的建模效果[39]。
高危機械設備的精確故障診斷對于人員安全、環境保護有著極大的影響。例如,核動力設備等大型復雜的機械設備在發生地震、海嘯等突發事件時,檢測系統所檢測的信號通常因突發事件的破壞而產生數據缺失。基于不完整數據的故障診斷會降低檢測結果的準確性與可靠性,甚至會導致一系列災難。如何有效地處理缺失數據,并以此提高診斷結果的精度,是故障診斷領域的重要研究任務。在此背景下,研究人員針對旋轉機械故障診斷中面臨的缺失值問題,設計基于改進隱馬爾可夫模型(Hidden Markov Model,HMM)的診斷方法。該方法采用缺失值填補思路,對HMM識別過程中的Viterbi算法進行改進,從而使HMM診斷方法具備缺失值處理能力。缺失值填補與故障診斷方法的結合為高危機械設備故障的精確診斷提供了良好的助力[40]。