官术网_书友最值得收藏!

  • 大數據管理與應用
  • 王剛主編
  • 2542字
  • 2024-05-14 10:09:53

第四節 大數據管理與應用的理論、技術和應用體系

大數據時代在具有云計算、人工智能、物聯網等新的技術驅動力的同時,也面臨著數據質量難以保證、數據價值密度低、系統架構及分析技術難等方面的挑戰。為了更好地進行新一代信息技術的收集、管理和分析,利用大數據挖掘其中蘊含的價值信息,大數據管理與應用工作需要構建合理的理論、技術和應用體系。

一、大數據管理與應用的理論體系

大數據管理與應用的理論體系,以統計、領域知識和機器學習為基礎和引領,同時依靠相應的存儲、計算和網絡平臺,對內部和外部的各類大數據和信息進行采集、治理和分析,形成數據可視化展示,為相關人員提供支持,大數據管理與應用的理論體系結構如圖1-4所示。

圖1-4 大數據管理與應用的理論體系

統計、領域知識和機器學習理論引領大數據管理與應用的整體理論體系。大數據管理與應用往往需要結合三方面的資源——高質量的數據、領域業務知識和數據挖掘軟件來進行數據挖掘,這需要依靠統計理論從大量數據中獲取有業務價值的洞察力,繼而結合相關管理和領域知識將這些業務洞察力以某種形式嵌入到流程中,從而達成目標。在這個過程中,利用機器學習的各種算法構建分析模型是核心步驟。除此之外,為了保證數據挖掘項目的成功實施,還有很多決定性因素,例如問題如何界定、數據如何選取、生成的模型如何嵌入到現有的業務流程中等問題都將直接影響數據挖掘是否能夠獲得成功。因此,大數據管理與應用的理論體系需要統計、領域知識和機器學習相關理論的引領。

數據分析流程是大數據管理與應用理論體系的核心部分。數據收集過程中,數據源會影響數據的質量和安全性。針對內部數據源和外部數據源,根據具體大數據分析任務進行數據選擇,將不適用于數據分析工作的數據剔除,針對有用數據進行數據的采集和存儲。在進行數據分析前需要對數據進行一定的預處理,數據預處理環節主要包括數據清理、數據集成、數據歸約與數據轉換等內容,可以極大提升數據的總體質量,是數據分析的重要前置工作。經過數據預處理后數據可以用于數據分析環節,深入業務場景分析,構建各類不同的數據分析模型,以提供新的數據洞察。最后將結果進行數據展示,數據分析結果具有豐富的呈現方案,包括角色看板、數據大屏等不同數據展示方式。除此之外,數據治理環節應當貫穿整個數據的采集、存儲以及處理分析的整個過程。數據治理的最終目標是提升數據的價值,這是企業實現數字戰略的基礎,是一個管理體系。數據治理由企業數據治理部門發起并推行,包含關于如何制定和實施針對整個企業內部數據的商業應用和技術管理等一系列政策和流程。

大數據管理與應用流程需要依靠相應的計算平臺、存儲平臺和網絡平臺。對于采集到的內部外部數據,需要構建合適的數據存儲平臺,實現數據的物理存儲,為數據分析工作做好準備。數據分析過程中構建相應的模型和數據查詢機制,并最終提供數據可視化結果,這需要依靠相應的數據計算平臺和網絡平臺,利用大數據相關計算框架實現更加快速、高效的數據計算和處理展示。

二、大數據管理與應用的技術體系

大數據管理與應用的技術體系以數據資產為核心,包含問題理解、數據理解、數據處理、模型建立、模型評估和模型部署6個環節,如圖1-5所示。大數據管理與應用過程是循環往復的探索過程,這6個步驟在實踐中并不是按照直線順序進行的,而是在實際執行過程中時常反復。例如在數據理解階段發現現有的數據無法解決問題理解階段提出的問題時,就需要回到問題理解階段重新調整和界定問題;到了模型建立階段發現數據無法滿足建模的要求,則可能要重新回到數據處理過程上;到了模型評估階段,當發現建模效果不理想的時候,也可能需要重新回到問題理解階段審視問題的界定是否合理,是否需要做些調整。

圖1-5 大數據管理與應用的技術體系

問題理解階段主要完成對問題的界定,以及對資源的評估和組織,這一環節需要確定問題目標,同時需要做出形勢評估并確定下一步數據挖掘目標,從而進一步制訂項目計劃。

數據理解階段主要完成的是對數據資源的初步認識和清理,這一階段需要收集原始數據并進行數據描述,進一步進行數據的探索性分析,最后對數據質量做出評估。

數據處理階段主要完成在建立模型之前對數據的最后準備工作,包括選擇數據并對數據進行清理,實現數據的重構和整合等工作內容。數據挖掘模型要求的數據是一張二維表,而在現實世界中,數據往往被存儲在不同的數據庫或者數據庫中的不同數據表中。數據處理階段將把這些數據集整合在一起,生成可以建立數據挖掘模型的數據集和數據集描述。

模型建立是大數據管理與應用技術體系的核心階段,這一步驟將選擇建模技術并對其進行評估,進而產生檢驗設計,最后完成模型參數的設定,建立模型并對模型的各參數做出調整。

模型評估是大數據管理與應用技術體系流程中非常重要的環節,這一步將直接決定模型是否達到了預期的效果,還是必須重新進行調整。模型評估可以分為兩個部分:一個是技術層面,主要由建模人員從技術角度對模型效果進行評價;另一個是問題層面,主要由業務人員對模型關于現實問題的適用性進行評估。這一階段主要進行的工作是篩選模型并回顧和查找疏漏,確定下一步工作內容。

模型部署階段是將已經建立并通過評估的數據挖掘模型進行實際部署的過程。這一階段將產生結果發布計劃,建立對模型進行監測和維護的機制,生成最終的數據挖掘報告。最后進行項目回顧,總結項目中的經驗教訓,為以后的數據挖掘項目進行經驗積累。

三、大數據管理與應用的應用體系

大數據管理與應用的應用體系同樣是以數據資產為核心,包含問題理解、數據理解、數據處理、模型建立、模型評估和分析報告6個環節的循環往復的探索過程,如圖1-6所示。大數據管理與應用中的應用體系與技術體系的主要區別在于每次循環最后階段的工作內容,不同于技術體系需要進行模型部署,大數據管理與應用的應用體系在經過問題理解、數據理解、數據處理、模型建立、模型評估環節后,還需要完成分析報告這一項工作內容。

圖1-6 大數據管理與應用的應用體系

分析報告階段是運用大數據管理與應用的相關技術模型結果解決現實問題的過程,這一階段將實現整個大數據管理與應用體系流程最終的價值,將生成最終的大數據分析報告以及報告演示。相關報告中蘊含的潛在知識和見解,將被用于改善決策水平,為以后的相關管理者提供支持和幫助。

主站蜘蛛池模板: 双柏县| 曲靖市| 宁海县| 万年县| 英超| 昔阳县| 滁州市| 安福县| 衡山县| 余庆县| 德安县| 甘泉县| 大城县| 磐石市| 临邑县| 宜宾县| 花莲市| 保康县| 平武县| 梓潼县| 乌兰察布市| 石首市| 友谊县| 河源市| 永丰县| 阜阳市| 界首市| 安西县| 平遥县| 安岳县| 望奎县| 武平县| 新余市| 资中县| 甘德县| 神木县| 澳门| 昭平县| 承德市| 河池市| 宝山区|