- Hadoop+Spark大數據分析實戰
- 遲殿委編著
- 800字
- 2023-09-08 19:24:01
1.3.1 數據分析與挖掘
下面分享一個真正通過數據挖掘收益的經典案例。最大零售超市沃爾瑪擁有世界上最大的數據倉庫系統。為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。通過數據挖掘和分析,一個意外的發現是:美國中年男子購買尿布的同時一般存在很大的可能會購買啤酒。通過分析后超市將啤酒和尿布擺放位置靠近,這樣給超市帶來了巨大收益。
國內百度大數據也做過很多次預測分析。2014年世界杯足球賽,百度通過大數據分析了所有比賽,小組賽準確率達到60%,淘汰賽階段高達100%。還有微軟、Google等幾家公司都利用大數據做了相應的預測。如圖1-2所示是幾家公司預測對比。

圖1-2
這兩個案例都是傳統的數據分析領域,最終目的都是為了從大數據中找到一些規則或者作出預測,為企業決策提供幫助,有點像沙里淘金。為了一點點金粒,就要留住所有沙子。這里的金子就是規則和結果,大量沙子就是大數據。
數據分析的步驟類似于從沙子里淘金的步驟,其步驟如下:
步驟01 采集大數據(可能有很多來源,這里要說明一下,數據必須真實可靠,否則得到的規則也將是錯誤的)。
步驟02 數據抽取(清洗,把對結果形成干擾的或者異常的數據剔除。比如運動員檔案的數據里面出現一些名字,各項指標都是空著的,這樣沒意義的數據要刪除)。
步驟03 在清洗完畢的數據基礎上構建數據倉庫(實際上就是對我們感興趣的維度構建一個模型,比如你要考察的是足球運動員,可能關注身高、體重、坐高、下肢長、小腿長,而對長得帥不帥、哪里人不感興趣),模型建好之后,最后一步運用數據挖掘算法進行計算得到結論,這就是大數據處理的傳統領域——數據分析,也叫作商業智能。
上面講到的兩個案例都是實時性要求不高,不要求馬上得到結果。如果希望快速得到結果,比如幾秒鐘得到處理結果,這就是大數據處理的另一個領域,即云計算。本書不詳細講解云計算,此處僅僅舉個小例子,以幫助讀者理解云計算的概念。
- 新編Visual Basic程序設計上機實驗教程
- Learn TypeScript 3 by Building Web Applications
- 軟件界面交互設計基礎
- Machine Learning with R Cookbook(Second Edition)
- Learning C++ Functional Programming
- AngularJS深度剖析與最佳實踐
- Mastering PHP Design Patterns
- Java面向對象程序開發及實戰
- Securing WebLogic Server 12c
- 從Excel到Python:用Python輕松處理Excel數據(第2版)
- Linux Shell核心編程指南
- Django 3.0入門與實踐
- Java圖像處理:基于OpenCV與JVM
- 分布式架構原理與實踐
- Java面向對象程序設計教程