- 智能數據分析:入門、實戰與平臺構建
- 陳雪瑩
- 2843字
- 2023-07-24 18:32:11
1.2 基礎理論體系
我們先來看看前人在數據分析領域總結的經驗和思路。從數據價值提升角度來看,DIKW是業界廣泛認可的從數據到智慧的價值提升思路;從分析方法來看,CRISP-DM是一套完整的數據挖掘方法論。
1.2.1 DIKW
DIKW體系,簡單地說就是關于數據、信息、知識和智慧的體系。“數據—信息—知識—智慧”是一個層層遞進的關系。通常,一個真正有意義的數據分析過程是,通過分析手段和工具將客觀存在的事實和數字,也就是“數據”,進行組織、加工形成“信息”,再經過提煉形成“知識”,再進一步通過洞察力、創造力加工成“智慧”,為決策所用。圖1-1所示為DIKW體系。

圖1-1 DIKW體系
那么什么是數據、信息、知識和智慧?
數據(Data):在拉丁文中數據是“已知”的意思,可以理解為“事實”。給數據下一個定義,它是對客觀事物的性質、狀態以及相互關系等進行記錄并鑒別的物理符號或這些物理符號的組合,是被賦予了“量”的數字。
信息(Information):作為科學術語最早出現在哈特萊(R. V. Hartley)于1928年撰寫的《信息傳輸》一文中;20世紀40年代,信息論的奠基人之一香農(C. E. Shannon)給出了信息的明確定義——信息是用來消除隨機不確定性的東西。通俗一點,信息描述“是什么”,可以回答類似誰、什么、哪里、多少、什么時候等問題,因此,信息是被賦予了“意義和目標”的數據。
知識(Knowledge):在漢語中,“知”字由“矢”和“口”構成,“矢”指射箭,“口”指說話,聯合起來為說話像箭中靶心,意思是說話很準(一語中的),這里的關鍵詞是“準確”;“識”繁體寫作“識”,“言”指用語言描述,“音”指教官口令聲,“戈”指參加操演軍人的武器,合起來本意為“隨著教官指令的變化,整齊劃一的團體動作形成各種圖形”,可以理解為“用語言描述圖案的形狀和細節”,引申意為“區別”“辨別”。綜合來看,知識是準確描述、區別、辨別能力的基礎,是人類在實踐中認識客觀世界的成果,包括對事實、信息的描述或在教育和實踐中獲得的技能,因此它是提煉后的信息,是被處理、組織、應用或付諸行動的信息。
智慧(Wisdom):指人類所具有的基于生理和心理器官的一種高級創造思維能力,包含對自然與人文的感知、記憶、理解、聯想、辨別、計算、分析、判斷、決定等多種能力。它是基于數據、信息、知識形成的洞察力和創造力。
單純的概念表述總是枯燥無味的,很難讓人融會貫通,那么如何真正理解DIKW體系中的數據、信息、知識和智慧呢?我常常在公開培訓的時候舉一個簡單的例子——一支演講用的激光筆長15cm。單獨看“15”,是個無意義的抽象符號,是數字;“15cm”是客觀存在的事實和賦予了量的數字,是“數據”;“這支激光筆長15cm”,是語義化的數據、組織后的數據,可以稱為“信息”;“我們使用的激光筆一般長為15cm”,這是經過人們總結提煉的經驗性信息,可以認為是常識,這就是“知識”;再進一步,一個激光筆的生產廠商在決策生產激光筆的時候,需要收集用戶需求,總結出“生產長15cm的激光筆銷量會比較好”,上升到決策層面,可以稱為“智慧”。前兩者是客觀存在的事實,后兩者則是人們通過經驗總結出來的主觀意識。
當然,實際上我們接觸的數據、信息、知識、智慧遠比上述舉例復雜,這里希望通過簡單的例子讓大家快速理解DIKW體系。在接下來的章節中,我們也能感受到智能數據分析的過程、智能數據分析工具如何助力點亮“數據”到“智慧”之路。
接著上面的例子,我們看看從數據到智慧是如何轉變和升級的。圖1-2展示了3個維度的分析。橫軸代表理解力,從數據層面的搜索、查詢到進一步理解、吸收形成信息,再通過分析、行動轉變為知識,通過分享、互動向智慧層面轉變,形成影響力,從被動接收到主動影響,這就是從數據轉換為智慧的魅力所在。縱軸代表情景性,先通過數據采集聚合部分數據、建立連接,將數據組合為信息、形成一個整體的知識體系,再到人知合一層面的智慧這一層正是本書講述的“智能數據分析”所要達到的真正目標。第三個維度是時間。信息、知識層面是對過去已有數據的分析,智慧層面則是對未來的預測,是對未來有影響力的決策,是創新。

圖1-2 數據—信息—知識—智慧的關系
那么,要實現從數據到智慧的發展之路,我們就需要使用相應的方法、技術手段。
智能數據分析就是通過智能手段助力個人、企業乃至社會走向“數據—信息—知識—智慧”的發展之路,真正從數據中洞察智慧,為決策提供支撐。
1.2.2 CRISP-DM
CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行業數據挖掘標準流程)最初是在1996年年末由數據挖掘市場“三劍客”(DaimlerChrysler、SPSS、NCR)提出的,1997年被正式命名并成立特別興趣小組,1999年被正式提出模型草案并逐步推廣。
CRISP-DM將數據挖掘項目生命周期劃分為6個階段,分別為商業理解、數據理解、數據準備、建模、評價以及部署,如圖1-3所示。
圖1-3中的箭頭代表各個階段最重要、最頻繁的關聯依賴,但并不代表順序是嚴格不變的,針對具體情況在不同階段之間來回移動也是很常見的。外圈形象地表達了數據挖掘本身的循環特性,即數據挖掘不是一次部署完就結束的活動,在任何過程中都可能觸發新的,甚至更值得關注的商業問題。這就需要有一個快速響應、及時調整的機制。

圖1-3 CRISP-DM模型
CRISP-DM模型的6個階段如下。
商業理解(Business Understanding):該階段需要我們從商業角度來理解項目的目標和要求,并把這些理解轉換為數據挖掘問題的定義和實現目標的最初規劃。如果方向錯了,預期的數據挖掘目標一定無法達成,因此商業理解是非常重要的環節。
數據理解(Data Understanding):該階段包括從最初的數據收集到接下來的一系列活動。這些活動的目的是熟悉數據、甄別數據質量問題、發現對數據的真知灼見,或者探索出令人感興趣的數據子集并形成對隱藏信息的假設。
數據準備(Data Preparation):該階段包括從最初原始數據構建到形成最終數據集的全部活動,具體為對表、記錄和屬性的選擇,通過建模工具進行的數據轉換和清洗。數據準備很可能被執行多次并且不以任何既定的秩序進行,它需要建立在數據理解的基礎上。
建模(Modeling):在該階段,我們通常會選擇和使用各種技術,并對模型參數進行調優。相同的業務問題解決和數據準備可能會有多種技術手段供選擇。由于某些技術對數據形式有特殊的規定,我們通常需要重新返回數據準備階段,因此數據準備與建模是緊密聯系、相輔相成的。
評價(Evaluation):到了該階段,我們通常已經構建好一個或多個從數據分析角度看較高質量的模型,但是在最終部署之前,還需要對模型進行全面的評價,重審構建模型的步驟以確認它能實現商業目標。這里一個關鍵的判斷標準是“是否存在還沒有被充分考慮的商業問題”。在這個階段的最后,我們還應該確認使用數據挖掘技術得到的決策是什么。
部署(Deployment):盡管通過數據模型已經將數據所隱藏的信息和知識顯現出來,但獲得的知識需要被組織起來并表示成用戶可用的形式,因此模型的建立通常并不意味著項目的結束,還需要將模型部署到系統中。這里的部署階段可以認為與生成一份報告一樣簡單,也可以認為與實施一個覆蓋整個企業可重復的數據挖掘過程一樣復雜。
圖1-4詳細列出了CRISP-DM模型的任務及輸出。

圖1-4 CRISP-DM模型的任務及輸出
CRISP-DM總結了一套完整的數據挖掘方法。數據分析項目套用CRISP-DM的思路,能有效把握每個環節的要點,保障項目有效、有序進行。
- 漫話大數據
- LibGDX Game Development Essentials
- 大規模數據分析和建模:基于Spark與R
- 輕松學大數據挖掘:算法、場景與數據產品
- Java Data Science Cookbook
- Architects of Intelligence
- 分布式數據庫系統:大數據時代新型數據庫技術(第3版)
- Oracle RAC 11g實戰指南
- Python數據分析、挖掘與可視化從入門到精通
- 大數據時代下的智能轉型進程精選(套裝共10冊)
- 大話Oracle Grid:云時代的RAC
- Starling Game Development Essentials
- AI時代的數據價值創造:從數據底座到大模型應用落地
- 大數據治理與安全:從理論到開源實踐
- 從實踐中學習sqlmap數據庫注入測試