官术网_书友最值得收藏!

1.2 數據挖掘與數據分析的關系

數據分析是指用適當的統計方法對收集的海量數據進行分析、提取有用的信息和形成結論,然后對數據加以詳細研究和概括總結的過程。有些人將數據分析劃分為描述性數據分析、探索性數據分析和驗證性數據分析。其中,探索性數據分析側重于在數據之中發現新的特征,而驗證性數據分析則側重于對已有假設的證實或證偽。數據挖掘是深層次的數據分析,數據分析是淺層次的數據挖掘,數據挖掘更偏重于探索性數據分析,因為數據挖掘的重點是從數據中發現知識規律。它們的具體區別如下:

(1)數據分析處理的數據量可能不大;而數據挖掘處理的數據量極大,并且特別擅長處理大數據,尤其是幾十萬行、幾百萬行,甚至更多的數據。

(2)數據分析往往是從一個假設出發,需要自行建立方程或模型來與假設吻合;而數據挖掘不需要假設,可以自動建立方程,比如關聯規則和聚類分析。

(3)數據分析往往處理數值型數據;而數據挖掘能夠處理不同類型的數據,比如聲音、文本等。

(4)數據分析主要側重于通過觀察數據來對歷史數據進行統計學分析;而數據挖掘通過從數據中發現“知識規律”來對未來的某些可能性做出預測分析,其更注重分析數據間的內在聯系。如果想從數據中提取一定的規律(即認知),則往往需要將數據分析和數據挖掘結合使用。因為在很多情況下,數據分析與數據挖掘是“同源同根”的。也就是說,數據分析與數據挖掘沒有明確的界限。在計算機中,數據都是以0和1的形式進行存儲的,從這個層面上講,數據分析的范疇更大一些。

(5)數據分析與數據挖掘的區別更多地體現在職業方向上。相對數據挖掘工程師,數據分析師與業務方的工作銜接更多,理解與梳理業務訴求、明確業務目的和指導模型搭建是數據分析師的主要工作。而模型搭建與參數調優則是數據挖掘工程師的工作。當然,這是在分工比較明確的大公司中,如果是在中小公司中,以上工作都是由一個人完成的。

主站蜘蛛池模板: 郸城县| 双峰县| 永丰县| 如东县| 宜阳县| 沁阳市| 龙山县| 蓬莱市| 淅川县| 广宁县| 黎川县| 石楼县| 辛集市| 石景山区| 太湖县| 上饶县| 武夷山市| 安图县| 平谷区| 新乡市| 财经| 鄂温| 东方市| 郑州市| 北川| 紫金县| 青阳县| 和政县| 阳信县| 丁青县| 英山县| 阿巴嘎旗| 丰顺县| 盐津县| 吴桥县| 水富县| 景宁| 吉林市| 雅江县| 多伦县| 当阳市|