官术网_书友最值得收藏!

1.1 數據機遇無處不在

當大量的數據觸手可及時,幾乎各行各業的公司都關注通過數據開發來獲得競爭優勢。過去,公司可以聘用統計學家、建模工程師和分析師,組隊對數據進行人工分析。然而,當今的數據量和復雜度已遠遠超出人工分析的能力范圍。與此同時,隨著計算機和互聯網的普及以及其算力的增強,覆蓋多種數據集的分析方法和挖掘算法不斷被開發出來,使得數據分析的深度和廣度達到了前所未有的程度。這些現象的集中出現,使得數據科學原理和數據挖掘技術在商業領域的應用變得越來越廣泛。

數據挖掘技術最常見的應用是在營銷領域,尤其是在目標市場營銷、線上廣告和交叉銷售的推薦系統中。一般客戶關系管理系統使用數據挖掘技術來分析客戶行為,以提高客戶留存率和最大化客戶價值。金融業使用數據挖掘技術來進行信用評分和量化交易,并在運營中用它檢測欺詐行為和優化生產資源。亞馬遜和沃爾瑪等大型零售商在其經營的各個環節——從市場營銷到供應鏈管理——都使用了數據挖掘技術。很多公司由于戰略性地應用了數據科學,因而在市場中嶄露頭角,有的甚至變成了數據挖掘公司。

本書的首要目標是幫助讀者從數據的角度看待商業問題,并從原理上理解如何從數據中獲取有用的信息和知識(即建立數據分析式思維)。數據分析式思維包含一個基礎架構和一套基本原理,理解它們至關重要。誠然,解決某些具體問題時,人們需要具備直覺、創意、常識以及領域知識。但數據視角可以提供一個基于上述架構和原理的框架,來系統地分析這些問題。這樣,你在逐漸熟悉這種數據分析式思維之后,就會自然地培養出一種直覺,懂得在何處以何種方式運用你的創意和領域知識(這樣的好處顯而易見,因為寶貴的創意和知識需要用在最需要的地方)。

本書的第1章和第2章將詳細討論與數據科學和數據挖掘相關的多個話題和技術。本書會頻繁使用“數據科學”和“數據挖掘”這兩個術語,兩者在很多情況下是可以混用的,不過“數據科學”這個字眼在各種以獲利為目的的炒作中已經失去了它本來的意義。嚴格地說,“數據科學”是一套指導人們從數據中獲取知識的基本原理,而“數據挖掘”則是將這些原理以具體技術的形式實現并從數據中獲取知識的過程。作為術語,“數據科學”比傳統意義上的“數據挖掘”涵蓋的范圍更廣,而后者則對前者的原理進行了最清晰的闡釋。

即使你沒有任何親自應用數據科學的打算,理解數據科學也是至關重要的。

這是因為數據分析式思維可以幫助你評估與數據挖掘有關的商業提案。譬如當你的一位員工、一位咨詢師或者一個潛在的投資對象提議通過對數據進行分析和挖掘來改善某一商業環節時,你應該有能力系統地評估該提案,判斷它是否可行。當然,這并不意味著讓你判斷它是否一定會成功,因為“嘗試”是數據挖掘項目的家常便飯,不成功的風險總是存在。但是至少你應該有能力發現一個提案是否存在明顯的缺陷、不現實的假設或者缺失的環節。

本書將介紹大量的數據科學基礎原理,同時每一條原理都會通過列舉至少一項應用了該原理的數據挖掘技術來解釋。由于每一條原理都會對應多項技術,因此本書把重點放在原理解釋而非具體技術應用上。換言之,除非對理解概念有關鍵作用,否則本書不會大費周章地區分“數據科學”和“數據挖掘”這兩個概念。

讓我們來看兩個通過分析數據發現預測性模式的簡單案例。

主站蜘蛛池模板: 湛江市| 三都| 张掖市| 五寨县| 新宁县| 大关县| 怀远县| 陵川县| 新乡市| 桑日县| 绿春县| 长丰县| 渝北区| 准格尔旗| 衡东县| 五常市| 汝阳县| 香格里拉县| 丽水市| 绥宁县| 上蔡县| 洞口县| 定远县| 金昌市| 共和县| 晋州市| 云林县| 阿合奇县| 靖宇县| 正宁县| 浙江省| 肇庆市| 沁水县| 苗栗县| 平武县| 蕲春县| 新龙县| 眉山市| 寿宁县| 读书| 云浮市|