官术网_书友最值得收藏!

  • 商務智能
  • 薛云
  • 4182字
  • 2019-12-20 19:11:30

1.5 什么是數據挖掘

1.5.1 數據挖掘的定義

數據挖掘(Data Mining,DM)又稱數據庫中的知識發現(Knowledge Discover in Database,KDD),是目前人工智能和數據庫領域研究的熱點問題。

從技術角度理解,所謂數據挖掘,就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。這個定義中包含的意思:數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;不要求發現放之四海皆準的知識,僅支持特定地發現問題。數據挖掘是一個多學科交叉的研究領域,它融合了數據庫(Database)技術、機器學習(Machine Learning)、 人工智能(Artificial Intelligence)、知識工程(Knowledge Engineering )、統計學(Statistics )、面向對象方法(Object-Oriented Method)、高性能計算(High-Performance Computing)、信息檢索(Information Retrieval)以及數據可視化(Data Visualization)等最新技術的研究成果。

從商業角度理解,所謂數據挖掘,就是按企業的既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的先進有效的方法。數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取能夠輔助商業決策的關鍵性數據。數據分析已經有很多年的歷史,過去數據收集和分析的目的是用于科學研究,但由于當時計算能力的限制,所以難以對大量數據進行分析。現在,由于各行業的業務自動化的實現,商業領域產生了大量的業務數據,這些數據不再是為了分析的目的而收集的,而是由于商業運作而產生的。數據挖掘是一類深層次的數據分析方法,分析這些數據也不再是單純為了研究的需要,更主要是為商業決策提供真正有價值的信息,進而獲得利潤。但所有企業面臨的一個共同問題:企業數據量非常大,而其中真正有價值的信息卻很少。因此,商業機構需要利用數據挖掘技術,在這些大量數據中進行深層分析,以獲得有利于商業運作、提高競爭力的信息,幫助決策者做出正確的決策。

1.5.2 數據挖掘的功能

數據挖掘通過預測未來趨勢及行為,而做出基于知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,其主要有以下5類功能。

1.自動預測趨勢和行為

數據挖掘技術自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。一個典型的例子是市場預測問題:數據挖掘技術使用過去有關促銷的數據來尋找未來投資中回報最大的用戶。其他可預測的問題包括預報破產,認定對指定事件最可能做出反應的群體等。

2.關聯分析

數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時我們并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。

3.聚類

數據庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。20世紀80年代初,Mchalski提出了概念聚類技術,其要點是:在劃分對象時,不僅需考慮對象之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統技術的某些片面性。

4.概念描述

概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。

5.偏差檢測

數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法:尋找觀測結果與參照值之間有意義的差別。

1.5.3 數據挖掘的對象

數據挖掘可以應用于任何類型的數據儲存庫以及瞬態數據,其主要包含以下幾種對象。

1.關系數據庫

關系數據庫是業務數據庫系統中最常用的,它將業務中產生的數據根據數據之間的關系進行分解和組合,形成一張張二維表的結構。每個表都被賦予唯一的名字,每個表包含一組屬性,表中通常存放著大量元組。關系表中的每個元組代表一個對象,被唯一的關鍵字標識,并被一組屬性值描述。關系數據庫具有較好的結構化數據,關系數據可以通過SQL語言這樣的關系查詢語言進行查詢。關系數據庫是數據挖掘中最常見、最豐富的數據源,是數據挖掘研究的一種主要數據形式。

2.數據倉庫

數據倉庫是一個從多個數據源收集的信息儲存庫,其通過數據清理、數據變換、數據集成、數據裝入和定期數據刷新過程構造。由于數據倉庫是面向主題的,并采用多維數據庫結構,所以更適合針對某個主題進行分析。基于數據倉庫而構建的數據立方體提供了數據的多維視圖,并允許預計算和快速訪問數據。OLAP分析工具是基于分析員的主觀要求,因此對數據中存在的隱含規則仍需要更多的數據挖掘工具,需進行更深入的自動分析,從而達到知識發現的目的。

3.文本數據庫

文本數據庫是包含對象的詞描述的數據庫。這種描述不是簡單的關鍵詞,而是長句或短文,如產品介紹、錯誤或故障報告、警告信息、匯總報告、筆記或其他文檔。文本數據庫可能是高度非結構化的,如Web頁面;可能是半結構化的,如E-mail消息、HTML/XML頁面。通過挖掘文本數據可以發現文本文檔的簡明的描述、關鍵詞或內容管理,以及文本對象的聚類行為。挖掘的目標包括:關鍵詞或特征提取、相似檢索、文本聚類、文本分類。

4.多媒體數據庫

多媒體數據庫存放圖像、音頻和視頻數據。對于多媒體數據挖掘,我們需要將存儲和搜索技術與標準的數據挖掘方法集成在一起。較好的方法包括構造多媒體數據立方體、多媒體數據的多特征提取和基于相似性的模式匹配。

5.數據流

數據流的特點:海量,動態變化,以固定的次序流進和流出,只允許一遍或少數幾遍掃描,要求快速或實時響應。比如,各種類型的科學和工程數據,時間序列數據和產生于其他動態環境下的數據(電力供應、網絡通信、股票交易、電信、Web單擊流、視頻監視、氣象、環境監控數據)。挖掘數據流涉及數據中的一般模式和動態變化的有效發現。大部分數據流存在于相當低的抽象層,而分析者常常對較高抽象或多抽象層更感興趣。因此,我們應當對流數據進行多層、多維聯機分析和挖掘。

6.互聯網數據

互聯網數據的特點是半結構化。互聯網上的每個站點就是一個數據源,每個數據源都是異構的。互聯網數據挖掘需要解決異構數據的集成問題,互聯網數據的查詢問題。另外,要定義一個半結構化數據模型,需要一種半結構化模型抽取技術。面向互聯網的數據挖掘比面向單個數據庫或數據倉庫的數據挖掘要復雜得多。

1.5.4 數據挖掘的步驟

數據挖掘的步驟會隨不同領域的應用而有所變化。每種數據挖掘技術也會有各自的特性和使用步驟,針對不同問題和需求所制訂的數據挖掘過程也會存在差異。此外,數據的完整程度、專業人員支持的程度等都會對建立數據挖掘過程有所影響。這些因素造成了數據挖掘在各不同領域中的運用、規劃,以及流程的差異性。即使是同一產業,也會因為分析技術和專業知識的涉入程度不同而不同。因此,數據挖掘過程的系統化、標準化就顯得格外重要。

數據挖掘的基本步驟如下所述。

1.業務對象的確定

清晰地定義出業務對象,認清數據挖掘的目的是數據挖掘的重要一步。挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有盲目性,難以獲得成功。

2.數據準備

(1)數據的選擇:搜索所有與業務對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據。

(2)數據的預處理:研究數據的質量,為進一步的分析做準備,并確定將要進行的挖掘操作的類型。

(3)數據的轉換:將數據轉換成一個分析模型。這個分析模型是針對挖掘算法建立的,建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵。

3.數據挖掘

對所得到的經過轉換的數據進行挖掘。除了選擇合適的挖掘算法外,其余一切工作都能自動地完成。

4.結果分析

解釋并評估結果,其使用的分析方法一般應視數據挖掘操作而定,通常會用到可視化技術。

5.知識的同化

將分析所得到的知識集成到業務信息系統的組織結構中去。

由上述步驟可看出,數據挖掘牽涉了大量的準備工作與規劃工作。事實上,許多專家都認為在整套數據挖掘的過程中,有80%的時間和精力是花費在數據預處理階段,其中包括數據的凈化、數據格式轉換、變量整合,以及數據表的鏈接。可見,在進行數據挖掘技術的分析之前,還有許多準備工作要完成。

1.5.5 數據挖掘在商務智能中的應用

商務智能的發展已經逐漸滲透到金融、電信、零售、醫藥、制造、政府等各個行業和領域,成為大中型企業經營決策的重要組成部分。若將數據挖掘技術結合商務智能應用于傳統商業領域,則可提高數據分析能力,優化業務過程,提高企業競爭力。具體應用如下。

1.商品關聯分析

商品關聯分析可以基于銷售數據與商品之間的關系進行關聯分析,以此判斷某些商品是否應該捆綁銷售。如果存在關聯關系,則可以創建一個在線的銷售指導系統,引導消費者快速找到關聯商品,或者幫助企業決定如何捆綁銷售能將利潤最大化。

2.客戶流失分析

企業可以利用數據挖掘技術管理客戶生命周期的各個階段,包括爭取新客戶和保持老客戶。如果能夠確定好客戶的特點,那么就能為客戶提供有針對性的服務。比如,已經發現了購買某一商品的客戶特征,就可以向那些具有這些特征但還沒有購買此商品的客戶推薦這個商品;找到流失客戶的特征就可以在那些具有相似特征的客戶還未流失之前進行針對性的彌補。

3.市場分析

市場分析可以通過對客戶自動分組來細分市場,并由此結果做趨勢分析,以設計市場活動。

4.預測

預測即預測銷售量和庫存量,并獲知他們之間的關聯關系。

5.數據瀏覽

由數據挖掘算法發現的模式能更好地了解客戶。它可以比較高價值客戶與低價值客戶之間的差異,或者分析喜愛同一種產品的不同品牌的客戶之間的區別。

6.Web站點分析

Web站點分析用來分析網站用戶行為,歸納相似的使用模式。

7.營銷活動分析

營銷活動分析可以準確定位有效用戶,把錢花在刀刃上,讓每一分市場經費都發揮最大的效用。

8.數據質量分析

數據質量分析是當數據被裝載進數據倉庫時檢查其中可能丟失的數據或是異常數據。

9.文本分析

文本分析用來分析反饋信息,找到客戶或者員工有關的共同主題或趨勢。

主站蜘蛛池模板: 仙游县| 洛扎县| 郓城县| 南宁市| 通榆县| 延吉市| 新兴县| 水富县| 济宁市| 永德县| 繁峙县| 朝阳市| 广昌县| 鹤庆县| 盈江县| 色达县| 昭苏县| 土默特左旗| 隆子县| 哈巴河县| 泉州市| 长宁区| 阿拉善右旗| 临沧市| 寻乌县| 绥中县| 时尚| 麻栗坡县| 保靖县| 醴陵市| 武汉市| 德清县| 鸡西市| 青龙| 德阳市| 白玉县| 三明市| 岑巩县| 高要市| 吉木乃县| 武冈市|