2.4.2 基于機器學習的方法
隨著物聯網及其應用技術的興起,數據采集和處理技術已經足夠成熟,可以批量或實時地生成、傳輸、存儲和分析各種數據,基于機器學習的方法越來越受到工業界的關注。
(1)機器學習的方式
機器學習是一門涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多領域的交叉學科,研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能,是使計算機更智能的根本途徑,其應用遍及人工智能的各個領域。機器學習流程如圖2.9所示,根據輸入數據(訓練集)的不同,機器學習的方式主要可以分成監督學習和無監督學習兩種。

圖2.9 機器學習流程
①監督學習 監督學習是指從有標記的訓練數據中推導出預測函數,有標記的訓練數據是指每個訓練實例都包括輸入和期望的輸出,主要應用于分類和回歸問題的預測。監督學習從給定的訓練數據集中學習出一個函數,當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集要求包括輸入和輸出,也可以說是特征和目標。訓練集中的目標由人標注,標注為連續數值的問題(如溫度)被稱為回歸,標注為離散值的問題(如圖像類別)被稱為分類。
監督學習的輸入數據被稱為訓練數據,每組訓練數據有一個明確的標識或結果,如對防垃圾郵件系統中的垃圾郵件、非垃圾郵件,對手寫數字識別中的1、2、3、4等,建立預測模型的時候,監督學習建立一個學習過程,將預測結果與訓練數據的實際結果進行比較,不斷地調整預測模型,直到模型的預測結果達到一個預期的準確率。
分類是在已有數據的基礎上學會一個分類函數或構造出一個分類模型,即分類器,能夠把數據庫中的數據記錄映射到給定類別中的某一類,進而用于數據預測。分類器是對樣本進行分類方法的統稱,包含決策樹、邏輯回歸、樸素貝葉斯、神經網絡等算法。
回歸分析是確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法,是應用極其廣泛的數據分析方法,可用于預測和控制等問題。回歸分析按照涉及變量的多少,可分為一元回歸分析和多元回歸分析;按自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。一元線性回歸分析只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示;多元線性回歸分析包括兩個或兩個以上的自變量且因變量和自變量之間是線性關系。
②無監督學習 無監督學習的目的在于從樣本數據中得到樣本的內在結構或者特征之間的關聯。發現相似樣本的問題稱為聚類,希望分析樣本在數據空間中分布的問題稱為密度估計,旨在尋找一個更簡潔數據表達的問題被稱為數據降維,發現特征之間關聯關系的問題被稱為關聯規則挖掘。
聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程,其目標是在相似的基礎上收集數據來分類。聚類源于數學、統計學、計算機科學、生物學和經濟學等多個學科。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等,采用k-均值、k-中心點等算法的聚類分析工具已被加入許多著名的統計分析軟件包中,如SPSS、SAS等。
從機器學習的角度講,簇相當于隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式學習。
聚類分析是一種探索性的分析,在分類的過程中,不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。
數據降維是將高維數據化為低維度數據的操作,降維方法可分為線性降維和非線性降維。線性降維包括主成分分析PCA、獨立成分分析ICA、線性判別分析LDA、邏輯框架分析LFA、局部保持投影LPP。非線性降維又分為基于核函數和基于特征值的方法,基于核函數的方法包括核主成分分析KPCA、核獨立成分分析KICA、核判別分析KDA,基于特征值的方法包括等距特征映射ISOMAP、局部線性嵌入LLE、拉普拉斯特征映射LE、局部切空間排列LTSA、最大方差展開MVU等。
關聯規則最初是針對購物籃分析問題提出的。假設分店經理想更多地了解顧客的購物習慣,特別是想知道哪些商品顧客可能會在一次購物時同時購買。為回答該問題,可以進行購物籃分析。該過程通過發現顧客放入購物籃中的不同商品之間的關聯,分析顧客的購物習慣。這種關聯的發現可以幫助零售商了解哪些商品頻繁地被顧客同時購買,從而幫助他們制定更好的營銷策略。
1993年,Agrawal等人首先提出關聯規則概念,同時給出了相應的挖掘算法,但是算法性能較差。1994年,他們建立了項目集格空間理論,并提出了著名的Apriori算法,至今Apriori算法仍然作為關聯規則挖掘的經典算法被廣泛討論。
③其他的機器學習方式 有關機器學習方式,還有一些從上述兩種學習方式中演化而來的半監督學習、強化學習、遷移學習和自我學習等。
半監督學習介于監督學習和無監督學習之間,輸入數據部分被標識,預測時模型首先需要學習數據的內在結構以便合理地組織數據。算法主要包括一些常用監督學習算法的延伸,這些算法首先試圖對未標識數據進行建模,再對標識的數據進行預測,如圖論推理或拉普拉斯支持向量機等。
強化學習又稱再勵學習、評價學習或增強學習,是從動物學習、參數擾動自適應控制等理論發展而來的,用于描述和解決智能體(Agent)在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題,在智能控制機器人及分析預測等領域有許多應用。其原理是:如果Agent的某個行為策略導致環境正的獎賞(強化信號),那么Agent以后產生這個行為策略的趨勢會加強,Agent的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。
遷移學習可以從現有數據中遷移知識,幫助將來的學習。機器學習假設訓練數據與測試數據服從相同的數據分布,然而許多情況下,這種同分布假設并不滿足。通常可能發生的情況是訓練數據過期,即好不容易標定的數據要被丟棄,而另外有一大堆新數據要重新標定。遷移學習的目的是將從一個環境中學到的知識用來幫助新環境中的學習任務,當前只有少量新的標記數據,但有大量舊的已標記數據(甚至其他類別的有效數據),可以通過挑選這些舊數據中的有效數據,加入當前的訓練數據中,訓練新的模型。
自我學習首先通過未標注的自然圖像提取一組特征,這樣任何一個標注和未標注的圖像都可以用這組特征表示出來,由于每一個標注后的樣本都被表示成了這些特征(捕捉了圖像高層結構),可以將表示后的標注樣本訓練成一個分類器進行分類。
自我學習和半監督學習一樣,當前手頭上只有少量訓練樣本(小樣本),但是周圍手頭上還有大量無標注樣本(無標簽)。舉一個經典分離大象和犀牛的例子:監督學習是指手頭有大量大象和犀牛的已標記樣本,接下來訓練分類器進行分類;遷移學習是指手頭上有大量羊的樣本和馬的樣本(大異種樣本),少量的大象和犀牛樣本(小樣本),接下來就要從羊和馬的樣本中選出有效的樣本分別加入大象和犀牛的標記樣本(弱標簽)中,然后用監督學習的方法訓練分類器;如果手上僅有少量大象和犀牛的已標記樣本(小樣本弱標簽),另外有一堆大象和犀牛的沒有標記的數據(數據中要么是大象要么是犀牛,沒有其他物種),半監督學習就是利用這些樣本訓練分類器,實現分類;無監督學習是從無標簽樣本中得到數據的內在結構或特征關聯;自我學習是手上僅有少量大象和犀牛的已標記樣本(小樣本弱標簽),另外有一大堆自然圖像(自然圖像就是有大象和犀牛的圖片在內的各種物種的圖片)。
(2)機器學習的常用算法
根據算法的功能和形式的類似性,可以把算法分類,比如說基于樹的算法、基于神經網絡的算法等。然而,機器學習的范圍非常大,有些算法很難明確歸類。而對于有些分類來說,同一分類的算法可以針對不同類型的問題。
①回歸算法 回歸算法(圖2.10)是試圖采用對誤差的衡量來探索變量之間關系的一類算法,是統計機器學習的工具。在機器學習領域,回歸有時候是指一類問題,有時候是指一類算法。常見的回歸算法包括最小二乘法、邏輯回歸、逐步式回歸、多元自適應回歸樣條以及本地散點平滑估計。

圖2.10 回歸算法
②基于實例的算法 基于實例的算法(圖2.11)常常用來對決策問題建立模型,先選取一批樣本數據,然后根據某些近似性把新數據與樣本數據進行比較,來尋找最佳的匹配。基于實例的算法常常也被稱為基于記憶的學習。常見的基于實例的算法包括k-近鄰法、學習矢量量化、自組織映射算法等。

圖2.11 基于實例的算法
③正則化算法 正則化算法(圖2.12)是線性回歸算法的延伸,解決了回歸算法中許多輸入特性容易過度擬合的問題。正則化方法通過增加人為懲罰模型系數來防止過擬合,對算法進行調整。常見的正則化算法包括嶺回歸、最小絕對收縮和選擇算子回歸、彈性網絡等。

圖2.12 正則化算法
④決策樹算法 決策樹算法(圖2.13)根據數據的屬性采用樹狀結構建立決策模型,用來解決分類和回歸問題(解決了線性回歸不能輕易表示特征的非線性關系問題)。常見的決策樹算法包括分類及回歸樹、ID3、C4.5、卡方自動偵察法、單層決策樹、隨機森林、多元自適應回歸樣條以及梯度推進機等。

圖2.13 決策樹算法
⑤貝葉斯算法 貝葉斯算法(圖2.14)是基于貝葉斯定理的一類算法,主要用來解決分類和回歸問題。常見的貝葉斯算法包括樸素貝葉斯算法、平均單依賴估計以及貝葉斯置信網絡。

圖2.14 貝葉斯算法
⑥基于核的算法 基于核的算法(圖2.15)把輸入數據映射到一個高階向量空間,使一些分類或者回歸問題能夠更容易解決。常見的基于核的算法包括支持向量機、徑向基函數和線性判別分析等。

圖2.15 基于核的算法
⑦聚類算法 聚類就像回歸一樣,有時候人們描述的是一類問題,有時候描述的是一類算法。聚類算法通常按照中心點或者分層的方式對輸入數據進行歸并,試圖找到數據的內在結構,以便按照最大的共同點將數據進行歸類(圖2.16)。常見的聚類算法包括k-均值算法以及期望最大化算法。

圖2.16 聚類算法
⑧關聯規則算法 關聯規則算法通過尋找最能夠解釋數據變量之間關系的規則,來找出大量多元數據集中有用的關聯規則(圖2.17)。常見的關聯算法包括Apriori算法和Eclat算法等。

圖2.17 關聯規則算法
⑨多層人工神經網絡算法 多層人工神經網絡算法(圖2.18)模擬生物神經網絡,是一類模式匹配算法,通常用于解決分類和回歸問題。多層人工神經網絡算法是機器學習的一個龐大的分支,有幾百種不同的算法,深度學習也是其中的一類。重要的多層人工神經網絡算法包括感知器神經網絡、反向傳遞、Hopfield網絡、自組織映射、學習矢量量化等。

圖2.18 多層人工神經網絡算法
⑩深度學習算法 深度學習算法是對多層人工神經網絡算法的發展,近期贏得了很多關注。在計算能力變得日益廉價的今天,深度學習試圖建立大得多也復雜得多的神經網絡。很多深度學習的算法是半監督式學習算法,用來處理存在少量未標識數據的大數據集。常見的深度學習算法包括受限玻爾茲曼機、深度置信網絡、卷積網絡(圖2.19)、堆棧式自動編碼器等。

圖2.19 深度學習算法
?降維算法 像聚類算法一樣,降維試圖通過分析數據的內在結構(圖2.20),以非監督學習的方式利用較少的信息來歸納或者解釋數據。這類算法可以用于高維數據的可視化或者用來簡化數據以便監督式學習使用。常見算法包括主成分分析、偏最小二乘回歸、Sammon映射、多維尺度、投影追蹤等。

圖2.20 降維算法
?集成學習算法 監督學習的目標是學習出一個穩定的且在各個方面表現都較好的模型,但實際情況往往不理想,有時只能得到多個有偏好的模型(在某些方面表現比較好的弱監督模型)。集成學習使用圖2.21所示的多個弱分類器,如決策樹、神經網絡、貝葉斯分類器、k-近鄰等,構成一個強分類器,然后把結果整合起來進行整體預測。在這種情況下,即便某一個弱分類器得到了錯誤的預測,其他弱分類器也可以將錯誤糾正回來,其難點在于究竟集成哪些獨立的較弱的學習模型以及如何把學習結果整合起來。

圖2.21 集成學習模型
常用的集成學習算法包括Boosting、Bootstrapped Aggregation(Bagging)、AdaBoost、堆疊泛化、梯度推進機等。其中,Bagging使用復雜的基模型,試圖通過減少復雜模型的過度擬合來平滑模型的預測,Boosting使用簡單的基模型,試圖通過提高簡單模型預測的靈活性來提高模型的總體復雜性。當基模型是決策樹時,Bagging和Boosting對應的集成學習算法分別是隨機森林和提升樹。
集成學習在各個規模的數據集上都有很好的策略。對于大數據集,可以劃分成多個小數據集,學習多個模型進行組合;對于小數據集,可以利用Bootstrap方法進行抽樣,得到多個數據集,分別訓練多個模型再進行組合。
(3)基于機器學習的故障預測
基于機器學習的故障預測與決策流程如圖2.22所示,包括數據準備、數據處理、特征工程、預測建模、訓練、仿真與測試、維護決策等步驟[25]。

圖2.22 基于機器學習的故障預測與決策流程
①數據準備 預測性維護問題的常見數據元素可以總結如下。
a.故障歷史:設備內部零件或部件的故障歷史記錄,如航班延誤日期、飛行器部件故障日期和類型、ATM取款交易故障、列車門故障、電梯門故障、制動盤更換日期、風機故障日期和斷路器命令故障等。
b.維護歷史:設備的錯誤代碼、維護活動或組件更換的維修維護歷史記錄,如航班錯誤記錄、ATM交易錯誤記錄、列車維護記錄和斷路器維護記錄。
c.設備狀態和使用情況:從傳感器采集的機器操作狀態數據,如飛行路線和時間、從飛行器發動機采集的傳感器數據、自動柜員機的傳感器讀數、火車事件數據、來自風力渦輪機的傳感器讀數、電梯和互聯的汽車實時數據等。
d.設備特征:描述機器發動機大小、制造商和型號、位置的特征信息,如斷路器技術規格、地理位置、汽車規格描述(如品牌、型號、發動機尺寸、生產設備)等。
e.操作者特征:操作者的特征,如性別、過去經驗等。
通常情況下,故障歷史包含在維護歷史中(例如以特殊錯誤代碼或部件的訂購日期的形式存在)。在這些情況下,可以從維護數據中提取數據。另外,不同的業務領域可能含有影響故障模式的各種其他數據源,沒有詳盡列出,應該在建立預測模型時通過咨詢相應領域專家來標識。
給定上述數據源,在預測維護中觀察到的兩個主要數據類型是臨時數據和靜態數據。故障歷史記錄、機器條件、修復歷史記錄、使用歷史記錄幾乎總是帶有指示每個數據的收集時間的時間戳。機器特性和操作員特性通常是靜態的,通常描述機器的技術規格或操作員的屬性。這些特性有可能隨時間改變,并且如果這樣,應當被視為加有時間戳的數據源。
②數據處理 在進入任何類型的特性工程或標簽工程之前,需要先按照創建功能所需的形式來準備數據。最終目標是為每個設備或資產在每個時間單位生成一個數據記錄,并將其特征和標簽輸入到機器學習算法中。為了準備干凈的最終數據集,應該采取一些預處理步驟。第一步是將數據收集的持續時間劃分為時間單位,其中每個記錄屬于資產的時間單位。數據收集也可以劃分為諸如操作的其他單位,為了簡單起見,選擇使用時間作為單位。
時間的測量單位可以是秒、分、小時、天、月、季度、周期等,選擇的依據取決于數據準備過程的效率,或者依據設備從一個時間單位到另一個時間單位的狀態變化,或者特定領域的其他因素。換句話說,在許多情況下,從一個單位到另一個單位,數據可能不會顯示任何差異,時間單位可以不必與數據采集的頻率相同。例如,如果每10s收集一次溫度值,則在整個分析過程中將會增加案例的數量,而不會提供其他任何附加信息,較好的策略可以選擇一個小時為時間單位。
③特征工程 特征工程是將原始數據轉化為特征,更好地表示預測模型處理的實際問題,提升對于未知數據的準確性。特征工程是用目標問題所在的特定領域知識或者自動化的方法來構造、提取、刪減或者組合變化得到特征,其內容如圖2.23所示。

圖2.23 特征工程的內容
原始特征或數據,如人體的各種生理指標(以描述健康狀況)、數字圖像中每點的灰度值(以描述圖像內容)是直接測量獲得的,往往不用于機器學習中,主要有以下幾個原因。
?原始數據不能反映對象的本質特征。
?高維原始數據不利于分類器設計:計算量大,如對于一幅像素為1024×768的灰度圖像,灰度級為256級,直接表示需要786432B,進行訓練識別所需的空間、時間和計算量都無法接受;冗余,原始數據空間中,大量的數據都是相關性強的冗余特征;樣本分布稀疏,對于有限訓練樣本而言,在高維的原始數據空間中分布十分稀疏。
?如果將數量過多的測量值不做分析,直接用于分類特征,不但耗時,而且會影響分類效果,產生維數災難的問題。
針對以上原始特征或數據的特性和不足,為了設計出更好的分類器,通常需要對原始數據的測量值集合進行分析,經過變換和選擇處理,組成有效的識別特征,處理方式包括:
?在保證一定分類精度的前提下,減少特征維數,進行降維處理,使分類器實現快速、準確、高效的分類;
?去掉模棱兩可、不利于分類的特征,使提供的特征具有更好的可分性,分類器容易判別;
?提供的特征不應重復,去掉相關性強但是沒有增加更多分類信息的特征。
因此,特征工程的目的是發現重要特征,分為特征構造、特征提取和特征選擇三方面。
特征構造一般是通過對原有的特征進行四則運算構造新特征。例如,原來的特征是x1和x2,那么x1+x2就是一個新特征,或者當x1大于某個數c的時候,就產生一個新的變量x3,并且x3=1,當x1小于c的時候,x3=0,可以按照這種方法構造出很多特征。
原始特征的數量可能很大,需要通過變換(映射)把高維特征空間降到低維空間,這些二次特征一般是原始特征的某種組合。特征提取就是將n個特征{x1,x2,…,xn}通過某種變換,產生m個特征{y1,y2,…,ym}(m<n)作為新的分類特征(或稱為二次特征)。例如主成分分析PCA、因子分析、線性判別分析LDA都可以對原始數據進行特征提取,主成分分析對原始數據進行降維后的每個主成分就代表一個新的特征,因子分析可以把潛在變量后面的潛在因子找出來。卷積神經網絡的卷積層也是一個特征提取過程,一張圖片經過卷積的不斷掃描,就會把原始圖片里面的部分特征逐步提取出來。實際上,主成分分析本身就是初始變量的線性組合,其本質也屬于特征構造,但是,一般的特征構造是指簡單的四則運算。
特征選擇是從n個度量值集合{x1,x2,…,xn}中,按某一準則選出供分類用的子集Cmn,作為降維(m維,m<n)的分類特征,組合數目很大,需要一些算法去避免窮盡搜索。常用的特征選擇方法有過濾式、包裝式、嵌入式。
過濾式特征選擇是通過評估每個特征和結果的相關性來對特征進行篩選,留下相關性最強的幾個特征。核心思想是:先對數據集進行特征選擇,然后再進行模型的訓練。過濾式特征選擇的優點是思路簡單,往往通過皮爾森相關系數法、卡方檢驗法、互信息法等方法計算相關性,然后保留相關性最強的N個特征,就可以交給模型訓練;缺點是沒有考慮到特征與特征之間的相關性,從而導致模型最后的訓練效果沒那么好。
包裝式特征選擇是把最終要使用的機器學習模型、評測性能的指標(如均方根誤差MSE、AUC等)作為特征選擇的重要依據,每次采用完全搜索(如動態規劃、分枝界定)、啟發式搜索(如A算法、A*算法)或隨機搜索(如遺傳算法、模擬退火、禁忌搜索、爬山搜索)等算法去選擇若干特征,或是排除若干特征。通常包裝式特征選擇要比過濾式特征選擇的效果更好,但由于訓練過程時間久,系統開銷也更大。最典型的包裝式算法為遞歸特征刪除算法,其原理是使用一個基模型(如隨機森林、邏輯回歸等)進行多輪訓練,每輪訓練結束后,消除若干權值系數較低的特征,再基于新的特征集進行新一輪訓練。
嵌入式特征選擇是根據機器學習的算法、模型來分析特征的重要性,從而選擇最重要的N個特征。與包裝式特征選擇最大的不同是,嵌入式特征選擇是將特征選擇過程與模型的訓練過程結合為一體,這樣就可以快速地找到最佳的特征集合,更加高效、快捷。常用的嵌入式特征選擇方法有基于正則化(如嶺回歸、Lasso回歸)的特征選擇法和基于決策樹模型的特征選擇法。其中,Lasso回歸是一種正則化方法,在回歸當中主要是控制回歸系數,不能太大,不僅可以約束系數,而且可以在模型最優的時候把不重要的系數約束為0,直接做到了特征選擇或者變量選擇,非常適用于高維數據分析;嶺回歸與Lasso回歸最大的區別在于嶺回歸引入了L2范數懲罰項,Lasso回歸引入了L1范數懲罰項,Lasso回歸能夠使得損失函數中的許多系數變成0,這點要優于嶺回歸(所有系數均存在),Lasso回歸計算量將遠遠小于嶺回歸。決策樹模型可解釋性強,是按照x的值對y進行了劃分,劃分好壞的依據是純度,在一個劃分塊里,純度高,就說明劃分得好,也就說明了這個劃分變量選擇得好;隨機深林、Bagging、Boosting、Gradient Booting、XGBoost等算法都有特征選擇的功能,神經網絡、支持向量機、深度學習等也都有特征選擇的功能。
特征工程是構建預測性維護機器學習算法和數據標簽工程的基礎,如何選擇合適的算法將很大程度上取決于采集的數據和對應的業務問題。下面結合一個案例,討論如何應用帶有時間戳的數據源構造滯后特征,以及利用靜態數據源構造靜態特征等特征構造的功能。
a.滯后特征。如前所述,在預測維護中,歷史數據通常帶有指示每個數據的收集時間的時間戳。有許多方法從帶有時間戳的數據中創建特征。由于特性工程被認為是預測建模中極具創意的領域,可能還有許多其他方法來創建特征。在這里,提供一些通用技術。
?滾動聚合特征。對于設備的每個記錄,選擇大小為“W”的滾動窗口,它是要計算歷史聚合的時間單位的數目。然后,使用該記錄日期之前的W周期來計算滾動聚合特性。一些滾動聚合的示例可以是滾動計數、平均值、標準偏差、基于標準偏差的離群值、CUSUM度量、窗口的最小值和最大值,還可以在異常數據中用檢測異常算法來捕獲趨勢變化、峰值和水平變化。
如圖2.24所示,用藍線表示記錄每個單位時間內每個資產的傳感器值,在t1和t2處將記錄的滾動平均特性計算標記為W=3(分別用橙色和綠色分組來指示)。以飛行器部件故障為例,可以使用過去一周、過去三天和最后一天的傳感器測量創建數據的滾動均值、標準偏差和求和特征。對于ATM故障,原始傳感器值、滾動均值、中值、取值范圍、標準偏差、超過三個標準差的離群值數量、消費的上限和下限等都可以作為預測特征。對于航班延誤預測,使用來自上周的錯誤代碼計數來創建特性。對于列車門故障,使用最后一天的事件計數、前兩周的事件計數和前十五天的事件計數的方差來創建滯后特性。相同的計數用于維護相關的事件。通過選擇一個極大W(例如年),可以查看資產的整個歷史,如技術所有維護記錄、故障等。這種方法用于計數最近三年中的斷路器故障。同樣對于列車故障計數所有維護事件,以創建捕獲長期維護效果的功能。

圖2.24 滾動聚合特征(電子版[注])
?翻滾聚合特征。對于設備的每個標記記錄,選擇大小為“W-k”的窗口,k是創建滯后特征大小“W”的數量或窗口。k可以挑選為大數字以捕獲長期下降模式,或小數字以捕獲短期效應。使用k翻轉窗口W-k,W-(k-1),…,W-2,W-1創建聚合特性(圖2.25)。

圖2.25 翻滾聚合特征(電子版)
以風力渦輪機為例,為每個使用頂部和底部離群值的前三個月數據,使用W=1和k=3個月創建滯后特征。
b.靜態特征。靜態特征是設備的技術規范,如制造日期、型號、位置等。雖然滯后特性主要是數字,但靜態特性通常在模型中成為類別變量,如斷路器所用的電壓、電流和功率規格,以及變壓器類型、電源等。對于剎車盤故障,輪胎類型(例如它們是合金或鋼)被用作一些靜態特性。
通過上述特征工程形成表2.1所示的特征表,其中時間單位為天。
表2.1 靜態特征

④預測建模、訓練、仿真與測試 設備在運行過程中會積累大量故障數據,通過對這些故障大數據進行深度挖掘和分析,人們可以提取出有價值的知識與規則,將這些知識與規則應用于設備的故障預測過程,有助于設備的穩定高效運行。根據設備的狀態數據、環境運行數據(來自點檢、狀態檢測的數據),構建故障預測模型,預測給出設備及核心部件的可用壽命及其功能損失率,進而給出預測性的維護需求及計劃。
在故障預測建模過程中,每一條設備狀態數據都記錄了設備運行狀態,這樣就可以按照狀態參數的相似性進行聚類分析,隨后就可以對不同聚類中的設備進行橫向和縱向的比較(表2.2)。橫向的比較是指在相同時間和相同運行條件下的狀態參數比較,這樣可以了解同一個集群內設備的差異性,并迅速判斷哪一個設備處于異常運行狀態;另一個維度是縱向的比較,即設備在時間軸上的相互比較,對于同一個設備根據其當前狀態與歷史狀態的差異量化其狀態衰退,判斷是否即將發生故障;對于同類設備在相同運行環境下的縱向比較,可以通過一個設備與另一個設備歷史狀態的相似性判斷其所處的生命周期,預測是否發生故障。
表2.2 基于機器學習的數據建模方法

⑤維護決策 根據預測結果和維護需求響應時間,結合備件庫存策略(連續性和周期性庫存訂購策略),在考慮生產計劃的產出率和訂單延誤成本的條件下,對預測性維護需求(來自預測性維護需求及計劃)、確定性維護需求(來自預防性維護計劃)和不確定性需求(來自隨機故障)進行決策,給出企業內生產、維護與備件庫存的決策策略。