- 深入淺出Python數據分析
- 張維元編著
- 1328字
- 2023-09-15 17:12:18
1.1.5 數據挖掘、機器學習與深度學習
1.數據挖掘
數據挖掘的英文是Data Mining,其主要的意思是Mining From Data,即從數據中挖掘金礦。另外,KDD(Knowledge Discovery in Databases)是數據挖掘的另一個常見的同義詞。Data Mining是在20世紀90年代從數據庫領域發展而來的,所以一開始通常用KDD這個名稱,在知名的學術論壇也稱為SIGKDD。
第一屆SIGKDD會議討論了這個問題,即沿用KDD還是改名為Data Mining。會議最終決定這兩個名字都保留,KDD有其科學研究上的含義,而Data Mining也適用于產業界。數據挖掘方法主要分為3種:關聯(Association)法、分類(Classification)法和聚類(Clustering)法。
提到數據挖掘,一定會提到“啤酒尿布”這樣的案例。該案例涉及一個經典的數據挖掘算法—關聯規則(Association Rule)。因其常用在商品數據上,所以也被稱為購物籃數據分析(Basket Data Analysis)。關聯規則通過數據間的關系,找出怎樣的組合是比較常出現的。關聯規則與傳統統計的相關性差異在于關聯法則更重視關聯性。
分類法是數據挖掘與機器學習中的重要算法。分類法主要用于區分數據,判斷數據屬于哪一個類別,即從原有的已知類別的數據集進行學習,以判斷新進的未知類別數據。因為是用已知類別的數據集進行學習,所以分類法也被稱為監督式學習(Supervised Learning)。
分類法的用法有兩種:分析與預測。
分析:解釋模型形成的原因,以了解數據本身的特性及應用。
預測:根據數據的特征及模型預測未來新的數據走向。
分類法可應用在多個領域,如銀行用來判斷是否發放貸款,醫生用來判斷某人是否患病等。
聚類法又稱叢集法,是相對于分類法的另一種數據挖掘方法。聚類法也是用來區分數據的,它與分類法的差別在于原本的數據都是未經類別區分的。因為是對未知類別的數據集進行區分,所以聚類法也被稱為非監督式學習(Unsupervised Learning)。
聚類法通常用于分組。舉例來說,一家營銷公司想要對不同的用戶投放廣告,就可以利用聚類法先對其進行初步的分組。聚類法可以用在市場研究、圖形識別等領域。因為數據是由不同的屬性所組成的向量,會呈現一個多維的對象,所以人們通常利用“距離”的概念表示相似程度。兩筆數據會被表示為兩個點,兩點之間的距離越大,代表兩筆數據越相似,反之越不相似。
當然,隨著數據樣式的變化,許多進階用法不斷出現,如時間序列分析(Time Series Analysis)和序列模式分析(Sequential Pattern Analysis)。
2.機器學習
機器學習是從人工智能這門學科延伸出來的分支,主要是通過演算法試圖從數據中“學習”到數據的規律,從而預測數據的特性。機器學習、數據挖掘與統計分析是用不同的觀點看待“數據”的技術。隨著技術的演進,這些技術所涵蓋的方法與技術越來越相近。《大演算》一書從不同的思維角度將機器學習流派分成5種。
● 符號理論學派:歸納法—從數據反向推導出結論的方法。
● 演化論學派:遺傳算法—通過程序模擬遺傳演化產出最后的結果。
● 類神經網絡學派:通過多層的節點模擬腦神經傳導的思考。
● 貝氏定理學派:根據統計學及概率的理論產生模型。
● 類比推理學派:基于相似度判斷進行推論學習。
3.深度學習
深度學習是機器學習的一個支派,也稱為進階的方法,以前也稱為類神經網絡。目前業界使用較多的是深度學習這個名稱。1980年,多層類神經網絡失敗,淺層機器學習方法(SVM等)興起。直到2006年辛頓成功訓練出多層神經網絡,帶動了新一波的深度學習發展。幾個數據相關名詞的搜尋量變化如圖1.3所示。

圖1.3 幾個數據相關名詞的搜尋量變化
- Oracle Exadata性能優化
- CentOS 7 Linux Server Cookbook(Second Edition)
- Python自然語言處理(微課版)
- 教孩子學編程:C++入門圖解
- Getting Started with Python Data Analysis
- 深入分布式緩存:從原理到實踐
- Learning AngularJS for .NET Developers
- 3ds Max印象 電視欄目包裝動畫與特效制作
- 自學Python:編程基礎、科學計算及數據分析
- Yii框架深度剖析
- 數據預處理從入門到實戰:基于SQL、R、Python
- Java EE 8 Development with Eclipse
- OpenCV 4計算機視覺:Python語言實現(原書第3版)
- 可信軟件基礎研究
- Python商業數據分析:零售和電子商務案例詳解(雙色)