官术网_书友最值得收藏!

1.1.5 數據挖掘、機器學習與深度學習

1.數據挖掘

數據挖掘的英文是Data Mining,其主要的意思是Mining From Data,即從數據中挖掘金礦。另外,KDD(Knowledge Discovery in Databases)是數據挖掘的另一個常見的同義詞。Data Mining是在20世紀90年代從數據庫領域發展而來的,所以一開始通常用KDD這個名稱,在知名的學術論壇也稱為SIGKDD。

第一屆SIGKDD會議討論了這個問題,即沿用KDD還是改名為Data Mining。會議最終決定這兩個名字都保留,KDD有其科學研究上的含義,而Data Mining也適用于產業界。數據挖掘方法主要分為3種:關聯(Association)法、分類(Classification)法和聚類(Clustering)法。

提到數據挖掘,一定會提到“啤酒尿布”這樣的案例。該案例涉及一個經典的數據挖掘算法—關聯規則(Association Rule)。因其常用在商品數據上,所以也被稱為購物籃數據分析(Basket Data Analysis)。關聯規則通過數據間的關系,找出怎樣的組合是比較常出現的。關聯規則與傳統統計的相關性差異在于關聯法則更重視關聯性。

分類法是數據挖掘與機器學習中的重要算法。分類法主要用于區分數據,判斷數據屬于哪一個類別,即從原有的已知類別的數據集進行學習,以判斷新進的未知類別數據。因為是用已知類別的數據集進行學習,所以分類法也被稱為監督式學習(Supervised Learning)。

分類法的用法有兩種:分析與預測。

分析:解釋模型形成的原因,以了解數據本身的特性及應用。

預測:根據數據的特征及模型預測未來新的數據走向。

分類法可應用在多個領域,如銀行用來判斷是否發放貸款,醫生用來判斷某人是否患病等。

聚類法又稱叢集法,是相對于分類法的另一種數據挖掘方法。聚類法也是用來區分數據的,它與分類法的差別在于原本的數據都是未經類別區分的。因為是對未知類別的數據集進行區分,所以聚類法也被稱為非監督式學習(Unsupervised Learning)。

聚類法通常用于分組。舉例來說,一家營銷公司想要對不同的用戶投放廣告,就可以利用聚類法先對其進行初步的分組。聚類法可以用在市場研究、圖形識別等領域。因為數據是由不同的屬性所組成的向量,會呈現一個多維的對象,所以人們通常利用“距離”的概念表示相似程度。兩筆數據會被表示為兩個點,兩點之間的距離越大,代表兩筆數據越相似,反之越不相似。

當然,隨著數據樣式的變化,許多進階用法不斷出現,如時間序列分析(Time Series Analysis)和序列模式分析(Sequential Pattern Analysis)。

2.機器學習

機器學習是從人工智能這門學科延伸出來的分支,主要是通過演算法試圖從數據中“學習”到數據的規律,從而預測數據的特性。機器學習、數據挖掘與統計分析是用不同的觀點看待“數據”的技術。隨著技術的演進,這些技術所涵蓋的方法與技術越來越相近。《大演算》一書從不同的思維角度將機器學習流派分成5種。

● 符號理論學派:歸納法—從數據反向推導出結論的方法。

● 演化論學派:遺傳算法—通過程序模擬遺傳演化產出最后的結果。

● 類神經網絡學派:通過多層的節點模擬腦神經傳導的思考。

● 貝氏定理學派:根據統計學及概率的理論產生模型。

● 類比推理學派:基于相似度判斷進行推論學習。

3.深度學習

深度學習是機器學習的一個支派,也稱為進階的方法,以前也稱為類神經網絡。目前業界使用較多的是深度學習這個名稱。1980年,多層類神經網絡失敗,淺層機器學習方法(SVM等)興起。直到2006年辛頓成功訓練出多層神經網絡,帶動了新一波的深度學習發展。幾個數據相關名詞的搜尋量變化如圖1.3所示。

圖1.3 幾個數據相關名詞的搜尋量變化

主站蜘蛛池模板: 唐海县| 海淀区| 乐业县| 满城县| 昌乐县| 宁都县| 广饶县| 宁远县| 资源县| 乐平市| 内黄县| 仙居县| 丰城市| 阜城县| 二手房| 古浪县| 广德县| 景谷| 从化市| 舒城县| 昌都县| 南澳县| 曲周县| 彭州市| 肥西县| 自治县| 成安县| 辽阳市| 清远市| 和林格尔县| 汾西县| 白山市| 遂溪县| 图木舒克市| 都兰县| 双城市| 福建省| 资中县| 临洮县| 柞水县| 石家庄市|