pg电子官网网站

書名：深入淺出Python數據分析
作者名：張維元編著
本章字數： 1328字
更新時間： 2023-09-15 17:12:18

1.1.5　數據挖掘、機器學習與深度學習

1．數據挖掘

數據挖掘的英文是Data Mining，其主要的意思是Mining From Data，即從數據中挖掘金礦。另外，KDD（Knowledge Discovery in Databases）是數據挖掘的另一個常見的同義詞。Data Mining是在20世紀90年代從數據庫領域發展而來的，所以一開始通常用KDD這個名稱，在知名的學術論壇也稱為SIGKDD。

第一屆SIGKDD會議討論了這個問題，即沿用KDD還是改名為Data Mining。會議最終決定這兩個名字都保留，KDD有其科學研究上的含義，而Data Mining也適用于產業界。數據挖掘方法主要分為3種：關聯（Association）法、分類（Classification）法和聚類（Clustering）法。

提到數據挖掘，一定會提到“啤酒尿布”這樣的案例。該案例涉及一個經典的數據挖掘算法—關聯規則（Association Rule）。因其常用在商品數據上，所以也被稱為購物籃數據分析（Basket Data Analysis）。關聯規則通過數據間的關系，找出怎樣的組合是比較常出現的。關聯規則與傳統統計的相關性差異在于關聯法則更重視關聯性。

分類法是數據挖掘與機器學習中的重要算法。分類法主要用于區分數據，判斷數據屬于哪一個類別，即從原有的已知類別的數據集進行學習，以判斷新進的未知類別數據。因為是用已知類別的數據集進行學習，所以分類法也被稱為監督式學習（Supervised Learning）。

分類法的用法有兩種：分析與預測。

分析：解釋模型形成的原因，以了解數據本身的特性及應用。

預測：根據數據的特征及模型預測未來新的數據走向。

分類法可應用在多個領域，如銀行用來判斷是否發放貸款，醫生用來判斷某人是否患病等。

聚類法又稱叢集法，是相對于分類法的另一種數據挖掘方法。聚類法也是用來區分數據的，它與分類法的差別在于原本的數據都是未經類別區分的。因為是對未知類別的數據集進行區分，所以聚類法也被稱為非監督式學習（Unsupervised Learning）。

聚類法通常用于分組。舉例來說，一家營銷公司想要對不同的用戶投放廣告，就可以利用聚類法先對其進行初步的分組。聚類法可以用在市場研究、圖形識別等領域。因為數據是由不同的屬性所組成的向量，會呈現一個多維的對象，所以人們通常利用“距離”的概念表示相似程度。兩筆數據會被表示為兩個點，兩點之間的距離越大，代表兩筆數據越相似，反之越不相似。

當然，隨著數據樣式的變化，許多進階用法不斷出現，如時間序列分析（Time Series Analysis）和序列模式分析（Sequential Pattern Analysis）。

2．機器學習

機器學習是從人工智能這門學科延伸出來的分支，主要是通過演算法試圖從數據中“學習”到數據的規律，從而預測數據的特性。機器學習、數據挖掘與統計分析是用不同的觀點看待“數據”的技術。隨著技術的演進，這些技術所涵蓋的方法與技術越來越相近。《大演算》一書從不同的思維角度將機器學習流派分成5種。

●　符號理論學派：歸納法—從數據反向推導出結論的方法。

●　演化論學派：遺傳算法—通過程序模擬遺傳演化產出最后的結果。

●　類神經網絡學派：通過多層的節點模擬腦神經傳導的思考。

●　貝氏定理學派：根據統計學及概率的理論產生模型。

●　類比推理學派：基于相似度判斷進行推論學習。

3．深度學習

深度學習是機器學習的一個支派，也稱為進階的方法，以前也稱為類神經網絡。目前業界使用較多的是深度學習這個名稱。1980年，多層類神經網絡失敗，淺層機器學習方法（SVM等）興起。直到2006年辛頓成功訓練出多層神經網絡，帶動了新一波的深度學習發展。幾個數據相關名詞的搜尋量變化如圖1.3所示。

圖1.3　幾個數據相關名詞的搜尋量變化

官术网_书友最值得收藏!

深入淺出Python數據分析

1.1.5 數據挖掘、機器學習與深度學習

1．數據挖掘

2．機器學習

3．深度學習

1.1.5　數據挖掘、機器學習與深度學習