- 工業大數據分析算法實戰
- 田春華
- 866字
- 2023-05-06 17:52:25
1.1.3 工業數據分析的特點
相對于服務業(如銀行、電信等)和互聯網的大數據,工業大數據具有很多特點[1,2],例如,工業大數據具有多樣、多模態、高通量和強關聯等特性,具有很強的上下文信息(Context),這些特性對工業大數據平臺提出了新的技術要求,不僅需要高效的數據存儲優化,還需要能夠通過元數據、索引、查詢推理等進行高效便捷的數據讀取,實現多源異構數據的一體化管理。
對于工業分析來說,工業數據的特點主要有維度不完備、樣本量不足(且嚴重有偏)、數據蘊含大量上下文信息等特點,這些特點也造成了“擁有的數據非常多,但可用的數據很少”的窘境。
1)維度不完備,數據分析需要集成多個維度的信息,任何一個維度的缺失都會造成分析數據集的缺失。很多分析常常需要一個完整的工業過程,過程序列中的局部中斷,可能導致當前數據不能完整勾畫出真實的物理過程。另外,有些維度間缺乏精確關聯,例如在洗衣液罐裝生產線中,考慮到成本和生產節拍,不可能按袋追蹤,稱重的數據和罐裝工藝過程數據做不到一一對應,在對應時只能采用概率模型。
2)樣本量不足,且數據樣本通常嚴重有偏(biased)。多數工業系統被設計為具有高可靠性且嚴格受控的系統,絕大多數時間都在穩定運行,異常工況相對稀缺(對于數據分析來說具有“高價值”)。很多數據在歷史上沒有被標記,對歷史數據的大規模重新標記通常也不可行(工作量大,對標記人員的要求高)。還有一些工業場景要求捕獲故障/異常瞬間的高頻細微狀況,這樣才能還原和分析故障發生的原因。最后,設備、傳感器、工藝和環境也是在不斷變化的,歷史數據的有效性也會隨著時間而流逝。這些都造成了工業數據分析時的樣本量不足。
3)數據蘊含大量上下文信息。工業是一個強機理、高知識密度的技術領域,很多監測數據僅是精心設計下系統運行的部分表征。很多數據間的關系都可以用機理去解釋(不需要挖掘),領域知識也提供了很多有用的特征變量(如齒輪箱振動的倒譜),這些隱形信息都大大縮小了數據分析的參數搜索空間。但不幸的是,并不是所有的專家經驗或領域知識都是正確的,數據分析仍然需要保持“謹慎的相信”,但不是迷信。
- 計算機組成原理與接口技術:基于MIPS架構實驗教程(第2版)
- 同步:秩序如何從混沌中涌現
- LibGDX Game Development Essentials
- 數據挖掘原理與實踐
- 有趣的二進制:軟件安全與逆向分析
- 數據分析實戰:基于EXCEL和SPSS系列工具的實踐
- Word 2010中文版完全自學手冊
- 商業分析思維與實踐:用數據分析解決商業問題
- 區塊鏈:看得見的信任
- 大數據營銷:如何讓營銷更具吸引力
- Remote Usability Testing
- Instant Autodesk AutoCAD 2014 Customization with .NET
- 數據庫原理與應用
- Construct 2 Game Development by Example
- 機器學習:實用案例解析