- 重復數據刪除技術:面向大數據管理的縮減技術
- 付印金 肖儂編著
- 2709字
- 2022-07-29 14:41:30
1.1.1 大數據定義和維度
大數據即指傳統數據分析與管理的工具,難以在合理的時間內抓取、存儲、搜索、共享、分析和處理的海量復雜數據集[2]。如圖1-1所示,大數據通常具有4V的特點:

圖1-1 大數據特征
· 數據體量巨大(Volume):全球數字化數據量以每隔兩年就翻番的速度增長。國際數據公司IDC研究表明[1]:全世界每年的數據增長量將從2013年的4.4ZB(1 ZB = 1012 GB)基礎上,在2020年增長10倍達到44 ZB的天文數字容量。
· 數據類型繁多(Variety):大數據不僅包括以數據庫為代表的傳統結構化數據,還有以網頁為代表的半結構化數據及以多媒體和文本為代表的非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,半結構化和非結構化數據越來越多,多樣化的混合數據集也提高了數據處理的復雜度。
· 價值密度低(Value):在大數據集中絕大部分的數據價值并不高。IDC估計在2013年的全球數據量中僅有5%的數據是特別有價值的,但隨著大數據管理和分析技術的廣泛采用,到2020年這個比例可能會翻番。
· 處理速度快(Velocity):數據爆炸式增長源于產生速度很快,迫切需要快速地分析處理PB級(1015Byte)甚至EB級(1018Byte)海量價值密度低的數據集,并猶如“煉金術”一般,從中即時挖掘出高價值的知識。
無處不在的信息感知和采集終端為我們采集了海量的數據,而以物聯網和云計算為代表的信息技術不斷進步,為我們提供了強大的數據處理能力,這就圍繞個人以及組織的行為構建起了一個與物質世界相平行的數字世界。為充分認識大數據,我們從數據來源、核心流程和支撐技術等三個維度來闡述大數據,如圖1-2所示。大數據集的原始生成來源于傳感器、社交網絡、系統日志和網絡爬蟲等途徑。

圖1-2 大數據維度
傳感器:往往用于測量物理量,并將其轉換為方便處理的可讀數字信號,以滿足信息的傳輸、處理、存儲、顯示、記錄和控制等要求。根據基本感知功能,傳感器分為聲敏元件、熱敏元件、光敏元件、氣敏元件、力敏元件、電流敏感元件、磁敏元件、濕敏元件、放射線敏感元件、色敏元件和味敏元件等。通過有線或無線傳感器網絡,將這些信息傳輸到數據采集點。
社交網絡:網絡社交過程中,每天都會產生大量的數據。但是它們并不像是我們想象中的那樣冷冰冰的、枯燥的數據,而是更加活生生的、有趣的數據。這些數據不同于以往單純的數字,它們聲色結合、圖文并茂。比如,Facebook用戶每天共享超過40億個帖子,Twitter每天處理的推特數量超過3.4億條;而每分鐘Tumblr博客作者會發布2.7萬個新帖子,Instagram用戶會共享3600張新照片。
系統日志:日志文件是一種最廣泛使用的數據收集方法,按特定的文件格式記錄數據源系統中的活動供后續分析使用。日志文件對數字設備上幾乎所有的應用都有用。例如,在Web服務器中有三種主要的日志文件類型用來記錄用戶活動:NCSA普通日志格式、W3C擴展日志格式和微軟IIS日志格式,數據庫也可用來存儲日志信息優化查詢效率。
網絡爬蟲:搜索引擎從萬維網上自動下載和存儲網頁的一種程序,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。所有被爬蟲抓取的網頁將會被系統存儲,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索。
大數據處理過程經歷數據準備過程對采集的原始數據進行預處理準備,再將數據傳送到數據中心的云計算平臺進行存儲管理,上層應用根據需要對這些數據進行計算處理分析,同時挖掘出有高價值密度的知識,最終將這些知識展現給決策者[4]。
數據準備:在進行存儲和處理之前,需要對數據進行清洗、整理,傳統數據處理體系中稱為ETL(Extracting Transforming Loading)過程。要想處理大數據,首先必須對所需數據源的數據進行抽取和集成,從中提取出關系和實體,經過關聯和聚合之后采用統一定義的結構來存儲這些數據。在數據集成和提取時需要對數據進行清洗,保證數據質量及可信性。同時還要特別注意前面提及的大數據時代模式和數據的關系,大數據時代的數據往往是先有數據再有模式,且模式是在不斷的動態演化的。
存儲管理:當前全球數據量正以每兩年翻一番的速度增長,存儲技術的成本和性能面臨非常大的壓力。大數據存儲系統不僅需要以極低的成本存儲海量數據,還要適應多樣化的非結構化數據管理需求,具備數據格式上的可擴展性。
處理分析:需要根據處理的數據類型和分析目標,采用適當的算法模型,快速處理數據。海量數據處理要消耗大量的計算資源,分而治之的分布式計算成為大數據的主流計算架構,但在一些特定場景下的實時性還需要大幅提升。通過計算從紛繁復雜的數據中發現規律提取新的知識,是大數據價值挖掘的關鍵。對于非結構化、多源異構的大數據集的分析,往往缺乏先驗知識,很難建立顯式的數學模型,這就需要發展更加智能的數據挖掘技術。
知識展現:在大數據服務于決策支撐場景下,以直觀的方式將分析結果呈現給用戶,是大數據分析的重要環節。如何讓復雜的分析結果易于理解是主要挑戰。在嵌入多業務中的閉環大數據應用中,一般是由機器根據算法直接應用分析結果而無須人工干預,這種場景下知識展現環節則不是必需的。
這一系列的流程離不開感知技術生成和收集各種數據,特別是物聯網和云計算等基礎設施將分散的小數據匯聚成大數據資源池,并實現可擴展存儲管理和高效計算處理,而數據挖掘技術作為大數據分析的核心技術從紛繁復雜的低價值密度數據中獲取高價值的知識。
云計算:是一種按使用量付費的商業計算模型。它提供可用的、便捷的、按需的網絡訪問,將計算任務分布在大量計算機構成的資源池上,使各種應用系統能夠根據需要獲取計算力、存儲空間和信息服務,只需投入很少的管理工作,或與服務供應商進行很少的交互。
物聯網:即物物相連的互聯網。核心和基礎仍然是互聯網,是在互聯網基礎上的延伸和擴展的網絡;但用戶端延伸和擴展到了任何物品與物品之間,進行信息交換和通信,也就是物物相息。物聯網通過智能感知、識別技術與普適計算等通信感知技術,廣泛應用于網絡的融合中,也因此被稱為繼計算機、互聯網之后世界信息產業發展的第三次浪潮。
數據挖掘:就是指從大量的數據中通過算法搜索隱藏于其中有用信息和知識的過程。數據挖掘通過統計、在線分析處理、情報檢索、機器學習、專家系統和模式識別等諸多方法來實現上述目標。獲取的信息和知識可以廣泛用于各種應用,包括商務管理、生產控制、市場分析、工程設計和科學探索等。
感知技術:是構建整個物聯網系統的基礎。感知功能的主要關鍵技術包括傳感器技術和信息處理技術。在物聯網應用系統中,傳感器提供了對物理變量、狀態及其變化的探測和測量所必需的手段,而對物理世界由“感”而“知”的過程則由信息處理技術來實現,信息處理技術貫穿由“感”而“知”的全過程,是實現物聯網應用系統物物互聯、物人互聯的關鍵技術之一。
- 算法競賽入門經典:習題與解答
- App+軟件+游戲+網站界面設計教程
- 數據庫開發實踐案例
- 數據要素五論:信息、權屬、價值、安全、交易
- 數據驅動:從方法到實踐
- 深入淺出 Hyperscan:高性能正則表達式算法原理與設計
- 大數據技術入門
- Apache Kylin權威指南
- 探索新型智庫發展之路:藍迪國際智庫報告·2015(下冊)
- SAS金融數據挖掘與建模:系統方法與案例解析
- Unreal Engine Virtual Reality Quick Start Guide
- Unity 2018 By Example(Second Edition)
- Oracle高性能SQL引擎剖析:SQL優化與調優機制詳解
- Expert Python Programming(Third Edition)
- 中國云存儲發展報告