官术网_书友最值得收藏!

1.3.1 數據分析與挖掘

下面分享一個真正通過數據挖掘收益的經典案例。最大零售超市沃爾瑪擁有世界上最大的數據倉庫系統。為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。通過數據挖掘和分析,一個意外的發現是:美國中年男子購買尿布的同時一般存在很大的可能會購買啤酒。通過分析后超市將啤酒和尿布擺放位置靠近,這樣給超市帶來了巨大收益。

國內百度大數據也做過很多次預測分析。2014年世界杯足球賽,百度通過大數據分析了所有比賽,小組賽準確率達到60%,淘汰賽階段高達100%。還有微軟、Google等幾家公司都利用大數據做了相應的預測。如圖1-2所示是幾家公司預測對比。

圖1-2

這兩個案例都是傳統的數據分析領域,最終目的都是為了從大數據中找到一些規則或者作出預測,為企業決策提供幫助,有點像沙里淘金。為了一點點金粒,就要留住所有沙子。這里的金子就是規則和結果,大量沙子就是大數據。

數據分析的步驟類似于從沙子里淘金的步驟,其步驟如下:

步驟01 采集大數據(可能有很多來源,這里要說明一下,數據必須真實可靠,否則得到的規則也將是錯誤的)。

步驟02 數據抽取(清洗,把對結果形成干擾的或者異常的數據剔除。比如運動員檔案的數據里面出現一些名字,各項指標都是空著的,這樣沒意義的數據要刪除)。

步驟03 在清洗完畢的數據基礎上構建數據倉庫(實際上就是對我們感興趣的維度構建一個模型,比如你要考察的是足球運動員,可能關注身高、體重、坐高、下肢長、小腿長,而對長得帥不帥、哪里人不感興趣),模型建好之后,最后一步運用數據挖掘算法進行計算得到結論,這就是大數據處理的傳統領域——數據分析,也叫作商業智能。

上面講到的兩個案例都是實時性要求不高,不要求馬上得到結果。如果希望快速得到結果,比如幾秒鐘得到處理結果,這就是大數據處理的另一個領域,即云計算。本書不詳細講解云計算,此處僅僅舉個小例子,以幫助讀者理解云計算的概念。

主站蜘蛛池模板: 华安县| 金寨县| 商水县| 新和县| 德格县| 福州市| 西和县| 峡江县| 栾城县| 弥勒县| 阜康市| 江陵县| 时尚| 大余县| 马关县| 白朗县| 米泉市| 英吉沙县| 镇江市| 鄢陵县| 孟连| 城固县| 定安县| 宜章县| 平顶山市| 屏山县| 博爱县| 闵行区| 台东县| 团风县| 九龙城区| 贵南县| 饶平县| 成武县| 台安县| 二手房| 东莞市| 台南市| 九寨沟县| 济南市| 玉环县|