- 工業大數據分析算法實戰
- 田春華
- 1846字
- 2023-05-06 17:52:23
前言
在過去的五年中,筆者有幸深入制造業數字化轉型一線,在與工業龍頭企業深入交流和合作的過程中,目睹了國內產業數據基礎的快速發展,也看到了數據思維模式的轉變和對數據技術的理性認知?;叵朐缒?,為了驗證數據分析技術,只能跨越地域、克服語言和文化的差異,到境外實施項目,不禁感慨萬千。在過去的二十年中,數據平臺技術、數據分析算法、計算資源技術和產業需求相互促進而蓬勃發展,數據思維成為繼邏輯思維、實證思維和構造思維之后的第四大思維范式。七十多年以來,大家一直在探索如何讓計算機不用顯式編程就能獲得一定能力的人工智能技術之路,經歷了符號演算、邏輯推理、自動機模型、進化計算、模糊數學、專家系統與知識工程、神經網絡(特別是自動梯度計算與反演算法)、機器學習、深度學習等不同模式和階段。得益于計算機硬件、產業數據的發展,機器學習和深度學習在行業應用已經取得了重大成功。但人工智能探索之路遠未結束,科學家還在繼續研究基于認知和進化等特點的強人工智能技術。另外,對于復雜系統的刻畫與建模方法,也期待一些形式化方法的突破。古人有云,物含妙理總堪尋。
在過去五年的工程實踐中,不時有工業界朋友提出,期望有本書能從算法應用的角度具象講解工業數據分析課題。但我一直猶豫,一來市面上已經存在很多機器學習算法經典專著,也有很多優秀的算法工具圖書,沒有必要做重復工作;二來我與團隊當時認為行業數據分析項目不落地的主要原因是分析課題定義不規范和數據不完備,而不是算法過程。因此,我們優先編寫了《工業大數據分析實踐》一書,嘗試規范不同類型工業分析課題的定義過程。然而在該書出版后的幾個月內,很多業界朋友再次表達類似的訴求,讓我也逐漸意識到這種需求主要來自于工科背景人看問題的角度與統計思維不同,結構方程的慣性讓大家下意識抵觸非參數模型、隱性結構模型等計算模型。
本書嘗試用工科人熟悉的思維模式去解釋常見的機器學習算法。很多算法知識展開都可以單獨成書,本書無意做重復工作,因此,本書中刻意避免了詳盡的理論推導過程,僅討論必要的理論思路和常見的認知障礙;在存在既有工具或圖書的地方,直接給出參考文獻,幫助讀者快速建立起系統的認知框架;簡化算法包使用過程的介紹,側重算法背后的工作機制和超參數的影響分析,以及算法應用到工業場景中的套路。由此,本書的風格更像數據分析算法的輔助教材,側重培養行業數據分析實操中的直覺研判力。
本書共10章,可劃分為四個部分。第一部分(即第1章)是數據分析概覽,目的是建立起數據分析算法的概念框架,并給出學習路線;第2~5章是第二部分,側重在通用數據分析算法,包括數據預處理、機器學習、時序挖掘算法和最優化等其他算法;第三部分包括第6~8章,討論了工業分析的算法思路,覆蓋了生產質量分析(PQM)、生產效率優化(PEM)等典型分析課題的算法組合套路;第四部分側重在分析工程方法,第9章討論了工業專家知識沉淀方法,第10章討論了數據分析的軟件工程。
基于PHM(Prognostics and Health Management,故障預測與健康管理)系統的工業設備/系統故障診斷是工業大數據分析中的一個重要領域,存在著豐富有效的研究成果與行業應用。筆者與團隊對近20年間的主要學術期刊與會議論文進行了調研,分為工業設備故障診斷、工業系統故障診斷、健康評估三大主題,每個主題下按照機器學習算法進行了分類總結,覆蓋了行業問題、技術挑戰、方法路線和應用效果等內容,形成了近100頁的文獻綜述文檔。原本計劃將其單獨成章,考慮到內容的特點、讀者檢索論文的便捷性及本書篇幅限制等因素,筆者決定將這些內容以電子文檔資源的形式分享出來,讀者可關注本書封底的“E視界”公眾號,發送“9787111709619”獲取該文檔。
在本書的編寫過程中,實習生李洋、高頌提供了很大的幫助,整理了3.3節、3.11~3.14節和第5章的初稿內容,并完成了工業設備/系統故障診斷電子文檔部分插圖的翻譯工作,6.3節的內容來源于李洋實習期間的合作研究。9.7節部分內容來自馬國,圖6-18來自曾聿赟,這里一并表示感謝。感謝清華大學數據治理研究中心孫雪老師和機械工業出版社呂瀟老師在選題立意上的研討與建議,你們的熱情給了我寫下去的信心。特別感謝機械工業出版社的編輯和各位審閱老師在底稿的編審過程中大量富有成效的工作,致敬在本書出版過程中的全體工作人員。
本書權當對于工業大數據分析算法的一些初步探討。鑒于精力和篇幅限制,僅僅覆蓋有限的典型算法,內容存在欠缺。再加上筆者才疏學淺,不少提法和表達尚欠推敲,書中難免有疏漏、錯誤之處,還望廣大讀者不吝賜教,日后有機會加以勘正。
田春華
2021年12月于北京