官术网_书友最值得收藏!

1.1 大數據時代的數據挖掘

大數據(Big Data)一詞,經常被用以描述和定義信息爆炸時代產生的海量信息。2012 年 3 月底,美國政府發布了大數據研發專項研究計劃 (Big Data Initiative),擬投入 2 億美元用于研究開發科學探索、環境和生物醫學、教育和國家安全等重大領域和行業所需的大數據處理技術和工具,把大數據研究上升為國家戰略。2016年5月,美國發布了聯邦大數據研究與開發戰略計劃(以下簡稱“計劃”),其目標是對聯邦機構的大數據相關項目和投資進行指導。該“計劃”主要圍繞代表大數據研發關鍵領域的7個戰略進行,包括促進人類對科學、醫學和安全所有分支的認識;確保美國在研發領域繼續發揮領先作用;通過研發來提高美國和世界解決緊迫的社會和環境問題的能力。

中國計算機學會于2012年10月成立了大數據專家委員會(以下簡稱大專委),并在2012年12月發布了調研報告,闡述了數據科學的熱點問題和發展趨勢。我們已經處在大數據時代,大數據已經成為當前計算機科學領域最重要、最前沿的研究問題之一。2016年,我國“十三五”規劃綱要發布,綱要指出,實施國家大數據戰略。把大數據作為基礎性戰略資源,全面實施促進大數據發展行動,加快推動數據資源共享開放和開發應用,助力產業轉型升級和社會治理創新。

在大數據時代,數據的產生和收集是基礎,而數據挖掘則是大數據應用中最關鍵也是最基本的工作。通常來講,數據挖掘(Data Mining)或知識發現(Knowledge Discovery)泛指從大量數據中挖掘出隱含的、先前未知但潛在的有用信息的一個工程化和系統化的過程。

1.1.1 大數據的特點“4V+4V”

從數據的表現形式看,業界普遍認為大數據具有如下的“4V”特點[1]

(1)海量(Volume):數據體量巨大,從TB級別躍升到PB級別。

(2)多樣(Variety):數據類型繁多,如網絡日志、視頻、圖片、地理位置信息等。

(3)高速(Velocity):處理速度快,需實時分析,這也和傳統的數據挖掘技術有著本質的不同。

(4)價值(Value):價值密度低,商業價值高,合理利用低密度價值的數據并對其進行正確、準確的分析,將會帶來巨大的價值。

上述“4V”特點描述了大數據區別于以往部分抽樣的“小數據”的主要方面。然而,實踐是大數據最終價值的體現,從實際應用和大數據處理的復雜性看,我們認為大數據還具有如下新的“4V”特點。

(1) 變化性(Variable)

在不同的場景、不同的研究目標下,數據的結構和意思可能會發生變化,因此,在實際研究中要考慮具體的上下文場景。

(2)真實性(Veracity)

獲取真實、可靠的數據,是保證分析結果準確、有效的前提,只有通過真實而準確的數據才能獲取真正有意義的結果。

(3)波動性(Volatility)

由于數據本身含有噪聲以及分析流程不規范,導致采用不同的算法或手段會得到變化的或有差異的分析結果。

(4) 可視化(Visualization)

在大數據環境下,通過數據可視化可以更加直觀地闡釋數據的意義,幫助理解數據,解釋結果。

國內外不同的專家和學者對大數據有不同的理解定義,中國科學院計算技術研究所的李國杰院士認為:大數據就是“海量數據”加“復雜數據類型”[2]。維基百科對大數據的定義是:大數據是由于規模、復雜性、實時性而導致的無法在一定時間內用常規軟件工具對其進行獲取、存儲、搜索、分享、分析、可視化的數據集合。Gartner咨詢公司給出的定義是:大數據是需要采用新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。而互聯網數據中心將大數據定義為:為了更經濟地從高頻率的、大容量的、不同結構和類型的數據中獲取價值而設計的新一代架構和技術。

結合上述大數據的“8V”特征,作者認為,大數據的核心和本質是實際應用、算法、數據和平臺架構4個要素的有機結合(如圖1-1所示)。大數據是應用驅動的,大數據來源于實踐,海量數據產生于實際應用中。

圖1-1 大數據架構

數據挖掘源于實踐中的應用需求,用具體的應用數據作為驅動,以算法、工具和平臺作為支撐,最終將發現的知識和信息用到實踐中,從而提供量化的、合理的、可行的,并且能夠產生巨大價值的信息。另外,挖掘大數據所蘊含的有用信息,需要開發分析和解決問題的相關數據挖掘和機器學習算法。算法的設計和開發要以具體的應用數據為驅動,同時也要在實際問題中得到應用和驗證,而算法的實現與應用需要高效的處理平臺。高效的處理平臺需要能有效地分析海量的數據及對多源數據進行集成,同時有力支持數據挖掘算法以及數據可視化的執行,并對數據分析的流程進行規范。總而言之,這個思想是對上述大數據的理解和認識的一個綜合與凝練,體現了大數據的本質和核心。建立在此架構上的大數據挖掘,能夠有效處理大數據的復雜特征,挖掘大數據的價值。

大數據技術發展一日千里,表1-1給出了大專委對2017大數據發展趨勢的預測。

表1-1 2017年大數據發展趨勢預測

10個預測可以分為三大類。首先,相比往年情況,大專委在2017年的10條預測里更加關注技術本身。從表1-1中的趨勢描述可以看出,有7條是純技術的話題,不像往年有多條都是關于產業或者資本的。因此,大專委寄希望于技術本身,希望從中尋求更多的突破。第二是安全和隱私,安全和隱私幾乎每年都會排在第三、第四的位置上,也就是說安全和隱私幾乎是成為阻礙大數據發展的唯一制約因素。對隱私泄露的擔憂使得數據的開放步伐放慢,使得大家對大數據的深度應用感到擔憂。因此,安全的保障成為大數據發展迫切需要解決的問題。另外,大專委除了將關注點放在技術上之外,還期望在政策和法規上能給予大數據發展有效的幫助。即在關注技術和市場時,相對在市場需求和政府訴求上,更加偏重于政府的訴求。這是一個有意思的現象,即我們期望依靠政府和法律的協同力量推動大數據的發展。

1.1.2 數據挖掘

不同的學者對數據挖掘可能有著有不同的理解,作者認為數據挖掘可以用下面的4個主要特性來總結和概括。

(1)應用性

數據挖掘是理論算法和應用實踐的完美結合。數據挖掘源于實際生產生活中應用的需求,挖掘的數據來自于具體應用,同時通過數據挖掘發現的知識又要運用到實踐中,輔助實際決策。所以,數據挖掘來自于應用實踐,同時也服務于應用實踐。數據是根本,數據挖掘應該以數據為導向。理論算法的設計和開發都會考慮到實際問題的需求,然后針對此問題進行抽象和泛化。同時,好的算法能夠運用在實際中,能在實際應用中得到檢驗。

(2)工程性

數據挖掘是一個由多個步驟組成的工程化過程。數據挖掘的應用特性決定了數據挖掘不僅僅是算法分析和應用,而是一個包含數據準備和管理(Data Preparation and Management)、數據預處理和轉換(Data Pre-Processing and Transformation)、挖掘算法開發和應用(Mining Algorithm)、結果展示和驗證 (Results Interpretation and Evaluation)以及知識積累和使用(Knowledge Representation)的完整過程。而且在實際應用中,典型的數據挖掘還是一個交互和循環的過程。

(3)集合性

數據挖掘是多種功能的集合。常用的數據挖掘功能包括數據探索分析(Data Exploration)、關聯規則挖掘(Association Mining)、時間序列模式挖掘 (Sequential Pattern Mining)、分類預測 (Classification and Prediction)、聚類分析 (Clustering Analysis)、異常檢測 (Anomaly Detection)、數據可視化(Data Visualization) 和鏈接分析(Link Analysis)等。一個具體的應用案例往往涉及多個不同的功能。不同的功能通常有不同的理論和技術基礎,而且每一個功能都有不同的算法支撐。

(4)交叉性

數據挖掘是一個交叉學科,它利用了來自統計分析(Statistics)、模式識別(Pattern Recognition)、機器學習 (Machine Learning)、人工智能 (Artificial Intelligence)、信息檢索 (Information Retrieval)、數據庫 (Database)等諸多不同領域的研究成果和學術思想。同時一些其他領域如隨機算法(Randomized Algorithm)、信息論 (Information Theory)、可視化 (Visualization)、分布式計算 (Distributed Computing)和最優化 (Optimization)也對數據挖掘的發展起到重要的作用。數據挖掘與這些相關領域的區別可以由前面提到的數據挖掘的3個特性來總結,最重要的是數據挖掘更側重于應用。

綜上所述,應用性是數據挖掘非常關鍵的一個特性,是它和其他學科的一個重要區別。同時數據挖掘的應用特性和它的其他特性相輔相成,這些特性從一定程度上決定了數據挖掘的研究和發展,同時也為如何學習和掌握數據挖掘提出了指導性的意見。

從研究發展上來看,實際應用的需求是數據挖掘領域很多方法提出和發展的根源。從最開始的顧客交易數據分析(Market Basket Analysis)、多媒體數據挖掘(Multimedia Data Mining)、隱私保護數據挖掘(Privacy-Preserving Data Mining)到文本數據挖掘(Text Mining)和 Web 挖掘(Web Mining),再到社交媒體挖掘(Social Media Mining),都是由應用推動的。工程性和集合性決定了數據挖掘研究內容和方向的廣泛性。其中,工程性使得整個研究過程中的不同步驟都屬于數據挖掘的研究范疇。集合性使得數據挖掘有多種不同的功能,而如何將多種功能聯系和結合起來,可以說從一定程度上影響了數據挖掘研究方法的發展。比如說,20世紀90年代中期,數據挖掘的研究主要集中在關聯規則和時間序列模式的挖掘。20世紀90年代末,研究人員開始研究基于關聯規則和時間序列模式的分類算法,如 Classification Based on Association(CBA),將兩種不同的數據挖掘功能有機地結合起來。21世紀初,一個研究的熱點是半監督學習(Semi-Supervised Learning)和半監督聚類(Semi-Supervised Clustering),也是將分類和聚類這兩種功能有機結合起來。近年來的一些其他研究方向,如子空間聚類(Subspace Clustering)(特征抽取和聚類的結合)和圖分類(Graph Classification)(圖挖掘和分類的結合),也是將多種功能聯系和結合在一起。最后,交叉性導致了研究思路和方法設計的多樣化。

數據挖掘的特性對如何能學習和掌握數據挖掘提出了指導性意見。應用性使得在進行數據挖掘時需要熟悉應用業務和把握應用需求。需求是數據挖掘的目的。業務和算法技術的緊密結合非常重要。了解業務,把握需求,才能有針對性地對數據進行分析,挖掘其價值。工程性決定了要掌握數據挖掘的條件。一個好的數據挖掘工作人員應該首先是一個工程師,有很強的處理大規模數據和開發原型系統的能力。集合性使得在具體應用數據挖掘時,要綜合集成不同功能,使用多種算法。交叉性決定了在學習數據挖掘時,要主動了解和廣泛吸收來自相關領域的思想和技術。

1.1.3 從數據挖掘應用的角度看大數據

大數據具有如下特征:數據量大、類型多樣、數據變化快、時效性強以及價值密度低。很多文獻指出,這些特征對數據挖掘在理論和算法研究方面提出了新的要求和挑戰。大數據是現象,核心是要挖掘數據的價值。在這里,我們結合數據挖掘的各種特性,尤其是其應用性,從應用業務的角度,對大數據提出如下兩點認識。

首先,大數據是“一把手工程”。在一個企業,大數據通常涉及多個業務部門,業務邏輯復雜。一方面,要對大數據進行收集和整合,需要業務部門的配合和溝通以及業務人員的大力參與,這些需要企業高層的重視和認可,提供必要的資源調配和支持。另一方面,要對數據挖掘的結果進行驗證和運用,更離不開領導的拍板。數據挖掘的結果大多是相關關系,而不是因果關系,這些結果還可能有很大的不確定性。另外,有時候數據挖掘的結果可能與企業運作的常識不一致,甚至相悖。所以,要利用數據挖掘,必然離不開領導的決定。

其次,大數據需要數據導入、整合和預處理。很多時候,企業在應用數據挖掘時,可能并不清楚要挖掘和發現什么。尤其是當數據量很大,還有很多不同數據源的時候,具體業務邏輯復雜,數據之間的關系瑣碎,導致企業的業務流程和數據流程很難被理解,對數據挖掘到底能幫助企業做什么并沒有直觀和清楚的認識。所以,很多時候都不可能先把數據事先規劃好和準備好,這樣在具體的數據挖掘中,就需要在數據的導入、整合和預處理上有很大的靈活性,只有通過業務人員和挖掘人員的配合,不斷嘗試,才能有效地將企業的業務需求與數據挖掘的功能聯系起來。

主站蜘蛛池模板: 陇川县| 古浪县| 罗城| 台东市| 揭东县| 彭阳县| 永定县| 揭阳市| 桐梓县| 多伦县| 嵊州市| 甘谷县| 通渭县| 阜平县| 双辽市| 凌海市| 含山县| 漳平市| 筠连县| 夏河县| 江口县| 浠水县| 阿拉善左旗| 安多县| 葵青区| 泰顺县| 肇源县| 南投市| 沁阳市| 容城县| 汶川县| 齐齐哈尔市| 凤城市| 定西市| 汝城县| 沭阳县| 白朗县| 茶陵县| 巴彦淖尔市| 兰坪| 耒阳市|