官术网_书友最值得收藏!

1.4 數據挖掘平臺:FIU-Miner

本節介紹作者研究團隊開發的大數據挖掘平臺FIU-Miner(a Fast, Integrated, and User-Friendly System for Data Mining in Distributed Environment)[6]:一個支持在分布式環境中進行快速集成和用戶友好的數據挖掘系統。該平臺支持數據分析人員快速有效地進行數據挖掘任務。本節介紹該平臺的基本架構以及3個成功應用該平臺實現高端制造業、空間數據和商務智能的大型、復雜數據挖掘的案例。

FIU-Miner 應用于高端制造業,在國際上率先將數據挖掘技術應用于顯示器件制造業,為四川長虹企業構建了制造過程單工序/全工序的數據挖掘分析模型,開發了基于數據挖掘的PDP-Miner(Plasma Display Panel Data Mining Platform) 平臺,有效提升了生產效率和產品質量。該企業應用PDP-Miner平臺后,產品綜合良品率提高了3.02%,生產效率提升產生的經濟效益達到1.17億元/年。該研究獲得2013年“中國制造業IT新興技術應用最佳實踐獎”。

FIU-Miner應用于空間數據挖掘,TerraFly GeoCloud在線空間數據挖掘系統已成功應用于地理(如國土邊界、水位圖等)、自然(如颶風數據分析)、經濟(如房產價格分析、人均收入等數據分析)、醫療(如肝癌、關節炎等疾病數據分析)、社會(如犯罪數據聚類等分析)等眾多領域,得到了極大的重視。

FIU-Miner 應用于商務智能庫存管理平臺,iMiner 應用于四川虹信軟件股份有限公司,成功解決了產品出庫預測、指標異常檢查、庫齡挖掘等對企業產品生產和經濟效益有重要影響的實際問題。

1.4.1 FIU-Miner平臺簡介

與現有數據挖掘平臺相比,FIU-Miner 提供了一組新的功能,能夠幫助數據分析人員方便并有效地開展各項復雜的數據挖掘任務。

具體而言,FIU-Miner 具有以下的突出優點。

(1)用戶界面友好、人性化、快速的數據挖掘任務配置

根據將軟件作為一種服務模式的思想,FIU-Miner 隱藏了與數據分析任務無關的低端細節。通過FIU-Miner提供的人性化界面,用戶可以將現有算法直接組裝成工作流,輕松完成一個復雜的數據挖掘問題的任務配置,而不需要編寫任何代碼。

(2)靈活的多語言程序集成

FIU-Miner 允許用戶將目前最先進的數據挖掘算法直接導入其系統算法庫,對它們進行充分的利用。同時,由于FIU-Miner 能夠正確地將任務分配到有合適運行環境的計算節點上,所以對這些導入的算法沒有實現語言的限制。

(3)異構環境中有效的資源管理

FIU-Miner支持在異構的計算環境中(包括圖形工作站、單個計算機和服務器等)運行數據挖掘任務。FIU-Miner綜合考慮各種因素(包括算法實現、服務器負載平衡和數據位置),來優化計算資源的利用率。

1.4.2 FIU-Miner系統架構

FIU-Miner的系統架構如圖1-11所示。

該系統分為4層:用戶界面層(User Interface)、任務和系統管理層(Task and System Management)、邏輯資源層(Abstracted Resources)和異構物理資源層(Heterogeneous Physical Resource)。這種分層架構充分考慮了海量數據的分布式存儲、不同數據挖掘算法的集成、多種分析任務的配置以及系統和用戶的交互功能。

圖1-11 FIU-Miner系統架構

1.4.3 FIU-Miner應用實例

1.4.3.1 等離子顯示器制造

在本例中,基于FIU-Miner實現等離子屏制造過程的數據分析平臺[4-5]。等離子顯示器(Plasma Display Panel,PDP)是一種利用氣體等離子效應放出紫外線,從而激發三原色發光體獨立發光,達到顯示不同顏色和控制亮度的高端圖像顯示器。它具有亮度高、色彩多、面積大、視角廣、圖像清晰眾多優勢,是大面積顯示需求(如家庭影院、電子廣告墻)的首選顯示器。

在生產實踐中,技術人員關注如何提高產品的良率。若想實現這個目標,需要回答下面的一些問題,即哪些是關鍵的工藝參數(它們對產品的良率有顯著的影響),參數值的變動會如何影響產品的良率,哪些可以有效地確保高良率的工藝參數配方等。從PDP的數據特點來看,生產的數據存儲量是每天10 GB以上,每月有3億~5億筆制造過程記錄,在數量、維度和數據產生速度上具有海量這一大數據特征。在生產工序復雜、設備參數眾多、數據量大的背景下,人為分析 PDP 生產過程,以期達到提高生產質量的效果幾乎是無法實現的。因此,迫切需要研究基于等離子顯示屏制造過程的自動化流程和產品優化工具,從而提升制造過程參數管控能力和產品品質。

作者團隊在 FIU-Miner 的基礎上,開發了離子屏制造過程數據挖掘系統(PDP-Miner)[6]來解決PDP數據分析的難題。PDP-Miner的架構在FIU-Miner的基礎上增加了數據分析層。PDP-Miner的實際應用界面如圖1-12所示。

圖1-12 FDP-Miner實際應用界面

通過技術人員將數據挖掘研究的結果和平臺進行有效應用,提高了對制造過程中出現的問題的分析和解決的效率,使PDP屏生產線的綜合良率及生產效率得到了快速提升。使用等離子屏制造過程數據挖掘系統之后,使得對前臺使用人員的要求大大降低,可以使得操作人員能夠將精力聚焦到快速發現問題和解決問題上。

1.4.3.2 空間數據挖掘

隨著衛星科技的發展及移動設備的普及,獲取一個對象實時完整的空間信息變得越來越容易。為了能夠從中實時性地獲取有用信息,需要有效的方法進行空間數據挖掘。空間數據挖掘是從大型空間數據庫里發現有趣的、不知道的但非常有價值的模式的一個過程。但由于空間數據類型和空間關系的復雜性,從空間數據庫里挖掘有趣和有價值的模式比從傳統數據庫里挖掘難度更大。

FIU-Miner 已被成功應用于TerraFly Geocloud [5],支持多種在線空間數據分析??臻g數據挖掘可以用在很多應用領域,包括水資源管理、交通管理、災難管理、犯罪分析、疾病分析和房地產等。一個典型的空間挖掘系統應支持以下功能:在線的空間數據分析、空間數據可視化和空間數據查詢。這里,我們介紹一個具體的空間數據挖掘系統:佛羅里達國際大學(FIU)計算機學院的高性能數據研究中心實驗室開發的TerraFly GeoCloud系統。TerraFly GeoCloud是建立在TerraFly系統之上的支持多種在線空間數據分析的平臺。圖1-13和圖1-14分別給出了TerraFly GeoCloud的系統截圖和工作流程。

圖1-13 TerraFly GeoCloud系統界面

圖1-14 分析工作流程

利用 FIU-Miner,系統可以通過構建空間數據分析的工作流來優化分析流程,提高分析效率。下面我們通過一個詳細的房產投資的案例分析來展示[7]。

房產投資案例的目的是要尋找具有良好升值潛力的房產。如果一棟房產本身價值很低,但它周圍的房產卻相對來說高些,那么對此房產進行投資將是一個非常不錯的選擇。根據歷史查詢數據,通過序列模式挖掘,我們發現這個任務一般有下面幾個步驟:

步驟1 計算不同地區的平均價格,比較鄰近地區的價格,確定感興趣的地區;

步驟2 對感興趣的地區進行空間自相關分析,確定候選地區;

步驟3 驗證候選地區罪案率和平均收入,確定選擇結果;

步驟4 在地圖上對結果進行可視化。

這個任務的工作流如圖1-15所示。工作流里所有的子任務都由FIU-Miner來調度并在分布式環境中執行。

圖1-15 房地產投資案例

1.4.3.3 庫存管理數據挖掘

庫存管理是指對制造業或服務業生產、經營全過程的各種物品、產品以及其他資源進行管理和控制,使其儲備保持在經濟合理的水平。高效可靠的庫存管理,可以為制定合理的貨物安全庫存量和訂貨量提供可靠的依據,提高企業管理人員的決策質量,從而減小資金的占用和缺貨損失,提高企業的經濟效益。當今的零售業,供應商往往需要給不同的地區存儲大量的貨物,且交易活動復雜頻繁,必須提前合理規劃好庫存方案。

作者團隊開發了基于FIU-Miner的智能庫存管理系統iMiner。該系統為智能庫存管理定制了專門的數據挖掘算法,實現多個功能模塊,開發大規模的數據分析平臺。該系統能幫助供應商實現高效的庫存管理,著力解決智能庫存管理的兩大關鍵問題。

(1)大規模庫存數據分析。該系統分析平臺建立在支持高效的數據分析的分布式系統——FIU-Miner 中。這一分析平臺在分布式環境中管理所有的交易數據,能夠自動地配置和執行數據預處理和數據分析任務。

(2)復雜分析任務管理。iMiner結合多種數據挖掘算法并應用這一專門定制算法來分析庫存數據。在實踐中,系統采用多種回歸模型,結合時間序列分析方法來實現庫存預測;運用情境感知異常檢測算法來識別異常貨物;利用統計回歸模型來實現庫齡分析。

下面以庫齡分析為例,介紹iMiner的庫齡挖掘功能。iMiner系統中,庫齡挖掘主要包含以下幾個模塊。

庫齡相關分類和標準:包括產品類型(彩電、液晶平板、等離子)、公司(總公司和各分公司)以及庫齡段劃分。

庫齡計算:根據每個公司每個產品的入庫出庫量數據,使用先進先出原則,計算該公司該產品庫存的庫齡分布。

庫齡金額計算:在庫齡計算基礎上,將庫存庫齡對應月份的出庫平均價格作為產品價格進行加權計算。

安全庫存的計算:基于周出庫量計算安全庫存。

如圖 1-16 所示,用戶可以根據選擇的物料屬性及取值范圍和其他基本查詢條件,找出潛在的積壓物料來重點監控。

圖1-16 庫齡分析

本節介紹了 FIU-Miner 平臺以及在其基礎上構建的 PDP-Miner、TerraFly Geocloud以及iMiner的3個應用案例,展示了數據挖掘在高端制造業、空間數據挖掘以及商務智能庫存管理中的應用。

本書強調數據挖掘的應用性,通過數據挖掘技術應用的實例來介紹如何應用和學習數據挖掘技術。各個章節的主題均是數據挖掘與某個特定應用領域相結合,與大多數數據挖掘和機器學習的教材不一樣之處在于,本書始終以現階段最熱點的數據挖掘應用貫穿全書,而不是嚴格按理論或技術來劃分章節。本書的宗旨是以應用為導向,以實際的數據挖掘應用領域為主題,講解背后的技術和理論。

本書包括 13個章節,內容包含日志數據挖掘、工單數據挖掘、可持續發展、推薦系統、智能問答系統、文本挖掘、多媒體挖掘、社交媒體挖掘、空間數據挖掘、生物信息學數據挖掘健康醫療數據挖掘、隱私保護與數據挖掘的方方面面,十分全面地介紹了當前數據挖掘領域的研究熱點與進展。

本書主要面向熱愛和關心數據挖掘技術的學術界和工業界讀者,且假設讀者已經對各種基本的數據挖掘和機器學習理論有了解,所以不會花過多篇幅來介紹基礎理論和算法。歡迎各大高校的師生把此書作為數據挖掘和機器學習課堂的實踐教材和參考書籍。希望此書講解的各種實際用例,可以幫助正在學習數據挖掘和機器學習基本理論的讀者更好地理解其背后的根源和本質。

主站蜘蛛池模板: 东港市| 仁化县| 宜阳县| 灌阳县| 香河县| 缙云县| 泗水县| 秦安县| 额济纳旗| 庐江县| 临海市| 浙江省| 德保县| 洛宁县| 浦江县| 文安县| 革吉县| 察雅县| 龙州县| 阜宁县| 肃南| 克拉玛依市| 庆阳市| 宜兰市| 兴海县| 胶南市| 宣武区| 邻水| 宁津县| 昌黎县| 易门县| 舞钢市| 永登县| 新沂市| 江安县| 秦皇岛市| 雷波县| 沙洋县| 吴堡县| 通辽市| 石狮市|