- 大數據時代的數據挖掘
- 李濤
- 839字
- 2020-01-03 19:51:07
前言
互聯網技術的迅猛發展,催化數據量呈現指數級增長,一座座數據金山堆積在我們面前。然而,從實際的角度考慮,大數據的一個關鍵特征就是數據量巨大、知識貧瘠。于是,當人們面對TB級別甚至PB級別的數據量時,再也無法通過人工手段對數據進行知識提取,此時數據挖掘技術大顯身手。
數據挖掘是大數據中最關鍵和最有價值的工作。2016年12月,麥肯錫全球研究院(McKinsey Global Institution,MGI)發表了一份名為《分析的時代:在大數據的世界競爭(The Age of Analytics: Competing in a Data-Driven World)》的報告。該報告指出近年來數據量呈指數型增長,從而發展出更復雜的算法,計算機的存儲能力也得到提升,隨著技術日新月異的變化,商業模式也受到顛覆式的影響。
在這樣的背景下,利用先進的數據挖掘技術,迎合各領域實際的需求痛點,才是和諧發展之道。大數據解決方案能夠給企業帶來巨大的資金效率和生產效率提升。IBM、谷歌、微軟、阿里巴巴等IT巨頭也將大數據描述成一種顛覆性的技術,其力量在將來足以影響和改變我們每一個人,甚至一個行業和一個國家。若想充分發揮大數據的巨大潛力,數據的產生和收集是基本,數據挖掘(知識發現)是工具和手段,是大數據應用中最關鍵和最有價值的工作。
作者長期從事數據挖掘研究和教學工作,經歷了從最初數據挖掘基礎研究的興起到如今數據挖掘應用百花齊放這樣一個時代的變遷,深刻體會到研究和應用兩者間不可分割的聯系:數據挖掘研究源于實踐中的實際應用需求,以具體的應用數據為驅動,以方法、工具和系統為支撐,最終將發現的知識和信息運用到實踐中,從而提供量化的、合理的、可行的、能夠產生巨大價值的信息。
大數據挖掘技術提供智能決策依據,在技術進步和人類生活的方方面面大顯身手。本書針對大數據挖掘技術的不同應用場景,分別介紹了大數據技術在系統日志和事件的挖掘、工作票數據挖掘、大數據與計算可持續性研究、推薦系統、隱私保護等方面的應用。
本書既通俗易懂,又比較全面,融入了最新前沿技術和應用,適合不同背景的讀者閱讀,也歡迎各大高校的師生把此書作為數據挖掘和機器學習課堂的實踐教材和參考書籍。