官术网_书友最值得收藏!

第二章 大數據及高校圖書館知識服務相關理論

第一節 大數據內涵及處理流程

一、大數據內涵及特征

(一)大數據的內涵

對于大數據的內涵,麥肯錫全球研究所的《大數據:創新、競爭和生產力的下一個前沿》報告中給出了大數據的定義。“大數據”是指大小超出了傳統數據庫軟件工具的抓取、存儲、管理和分析能力的數據群。不斷增多的數據量需要不斷更新的分析和存儲工具,故大數據通常與Hadoop、NoSQL、數據分析與挖掘、數據倉庫、商業智能以及開源計算機架構等諸多熱點話題聯系在一起。簡單來說,大數據由海量的交易數據、海量的交互數據以及海量的數據處理這三項技術匯聚而成。其中,海量的交易數據是指不斷增長的半結構化數據和非結構化數據信息;海量的交互數據是由網絡社交平臺貢獻而來,如Facebook、Twitter等;海量的數據處理指用于數據密集型處理的架構,如Hadoop,就是一種以可靠、高效、可伸縮的方式進行分布式處理的軟件構架。當前大數據的價值主要體現在“分析使用”和“二次開發”兩個方面。

(二)大數據的特征

IBM將大數據歸納為三個標準,即“3V”:類型(Variety)、數量(Volume)和速度(Velocity)。其中,類型(Variety)指數據中有結構化、半結構化和非結構化等多種數據形式;數量(Volume)指生成和收集的數據容量和規模龐大;速度(Velocity)指數據產生速度快或數據采集和分析等處理速度足夠快。業界將大數據的特征概括為“4V”,即數量(Volume)、速度(Velocity)、多樣性(Variety)和價值密度(Value)。隨著大數據的進一步發展和應用,IBM又提出了大數據的五個特征,即“5V”:數量(Volume)、類型(Variety)、速度(Velocity)、多樣性(Variety)和真實性(Veracity)。盡管目前關于大數據的概念存在不同的認識,但對大數據基本特征的理解已形成了較為普遍的認知,即數據量大、數據處理實時性要求高、數據類型多樣、數據價值密度低及數據的準確性和可信賴度五個基本特征。

(1)數據量大。隨著物聯網、云計算、移動互聯等信息技術的快速發展以及微信、微博、QQ等社交網絡平臺的普及,用戶獲取和共享數據的途徑更加便捷,在此過程中,用戶對網頁的瀏覽、點擊以及分享造成了大量數據的產生和傳播。此外,人工智能、傳感器等技術的廣泛使用大大拓展了用戶獲取信息的渠道,與此同時,音頻、視頻、圖片等多媒體信息資源的出現,進一步滿足了用戶期望獲取到更真實可靠的數據的需求,這也促使網絡空間的數據體量以爆炸式的速度急劇膨脹增加,數據處理從以GB、TB、PB為存儲單位增長到以EB、ZB為存儲單位。

(2)數據處理實時性要求高。在大數據、云計算、人工智能、物聯網、移動互聯等現代信息技術快速發展的互聯網時代,數據信息量以較快的速度不斷增加,數據信息產生、獲取、傳遞的途徑更加多樣便捷。為了處理快速增長的海量信息、提高數據資源開發和管理的效率,人們在大數據的處理速度和處理能力方面提出了更高的要求。網絡空間的海量信息隨互聯網數據的不斷增加和更新而不斷循環,如果得不到及時地采集、存儲、整理及利用,最終將失去利用價值。因此,大數據環境下,實時、持續地分析處理數據是新時代大數據資源開發和管理的必然要求。目前,隨著大數據的深入發展,云計算提供用于處理密集型數據的大數據框架Hadoop,進一步提高了數據分析處理的速度和效率。同時,隨著大數據的涌現,數據挖掘(知識發現)、可視化分析、聚類分析和神經網絡等多種先進的大數據開發與管理技術應運而生,利用這些先進技術可對不斷更新的數據進行高效、實時的動態分析,為獲取最新、最有價值的知識信息提供了有效途徑。

(3)數據類型多樣。不斷更新和升級的博客、微博、QQ、微信等社交網絡平臺,增加了用戶溝通和交流的途徑,讓用戶對數據的獲取和分享產生了強烈的意愿。同時,不斷涌現和升級換代的智能手機、平板電腦等移動終端設備攜帶更加方便,也促使用戶產生隨時隨地獲取網絡數據信息的意愿。由于用戶對網絡數據需求的意愿不斷增加及數據處理能力的不斷提高,用戶對信息的瀏覽方式逐漸從傳統的瀏覽新聞、發送文字郵件到通過微信、QQ、微博等上傳或下載圖片、視頻等,傳統意義的結構化數據已無法滿足用戶日常在數據方面的需求。因此,數據總量中超媒體、文本、聲音、HTML等半結構化和非結構化數據急劇增加并廣泛傳播,半結構化和非結構化數據成為大數據的主體。在新時代,知識服務更加強調個性化服務,因此,高校圖書館為滿足用戶需求,必須要進行半結構化或非結構化數據的分析和處理。

(4)數據價值密度較低。海量的大數據具有巨大的知識信息和商業價值。通過對大數據進行挖掘、采集、整理和分析,人們可以從中發現數據間的聯系,挖掘出高價值和潛在的知識信息。但是,由于大數據環境下的數據規模大、結構多樣、來源復雜,混雜了大量混亂、虛假、無意義的數據信息,高價值的知識信息分布分散且數量較少,導致大數據的整體數據價值密度低,這進一步加劇了數據挖掘、分析和處理的難度。此外,大數據中結構化、半結構化和非結構化數據并存,且主要以非結構化數據為主,導致數據間的關聯度降低。同時,與傳統的數據處理不同,利用大數據挖掘和分析處理不只是為了獲取某一事物的特定信息,而是為了獲取事物的完整信息,對事物的所有數據信息進行采樣。對于簡單的數據,可能沒有對錯之分,但數據關聯組合所形成的信息可能對也可能錯。這也表明,由于存在大量非結構化數據,大數據的價值密度明顯降低。

(5)數據的準確性和可信賴度,即數據的質量。大數據是指通過新處理模式產生的具有強洞察力、決策力和流程優化能力的海量、多樣化和高增長率的信息資產。在大數據處理過程中應該重點關注數據的真實性,數據背后隱含的細節、數據來源的真實可靠性、處理數據流程中的科學性等都是數據質量的內容。在數據搜索時一般無法收集到全數據,但是與大數據相關的形容詞往往與大規模、精準、細化相關,因此在調用相關數據時應關注情景和樣本的適用性。此外,雖然可以利用大數據基于一定算法和模型對變量進行相關性分析,但是在復雜模型中僅僅進行相關性解釋是不全面的,需要將數據之間、數據與真實事件聯系上。因此,在大數據應用過程中應強化對真假數據的清洗,提高數據的質量。

二、大數據處理流程

大數據處理流程涵蓋了數據采集、數據預處理、數據統計分析、數據挖掘四個部分。

(1)數據采集。數據采集是大數據處理流程最基本的環節。大數據類型繁多、結構復雜,處理難度大。為充分發揮大數據的價值,需要先對數據源進行提取和整合,再通過關聯和聚合從獲取的數據中提取數據關系和實體,并利用大數據技術對獲得的數據關系和實體進行存儲。此外,為保證數據的質量和可靠性,在提取和整合數據源信息之前,必須對數據進行清洗。目前,在傳統靜態數據庫相關領域,數據抽取和集成技術的研究已趨于成熟。從數據集成模型的角度看,常見的數據抽取和集成技術一般可分為4種類型:基于中間件或聯邦數據庫的引擎;基于ETL或物化的引擎;基于數據流的引擎;基于搜索引擎的方法。

(2)數據預處理。雖然存在大量的數據源、數據庫,但為了有效地分析、挖掘和處理海量數據,就必須要進行數據預處理。數據預處理需要將從數據信息源收集到的數據導入相對集中的大型分布式數據庫或分布式存儲集群中,同時,為提高數據的可信性和可解釋性,有必要對導入的數據進行預處理。數據預處理的一般步驟分為數據清洗、數據集成、數據歸約和數據變換。數據清洗是指通過補充缺失值,光滑噪聲數據,識別或刪除離群點,并且解決數據不一致性帶來的問題以此對數據進行清洗。數據集成表示的是同一概念的屬性在不同數據庫中可能是不同的名稱,由此導致不一致性和冗余。數據歸約是將得到的數據集合簡化表示,使得數據集變小但是能夠產生相同的分析結果,數據歸約策略包括數據歸約和維歸約。數據歸約是使用參數模型或非參數模型,使用較小的表示數據;維歸約是使用數據編碼的方案,將得到的初始數據進行簡化或者“壓縮”表達。數據變換包含規范化、數據離散化和概念分層產生等。

(3)數據統計分析。數據分析是大數據處理流程中最重要的組成部分和處理過程。數據統計分析是指通過有目的、有組織地收集和分析數據,使之成為信息的過程。數據分析的目的是從海量且無序的數據中將信息集中和提煉出來,以此找出研究對象的內在規律和發展特征。數據價值只能通過對原始數據進行全面系統深入的關聯分析,才有可能被挖掘出來。大數據時代,數據統計分析面臨著新的挑戰:一是由于大數據環境下數據資源量大且價值密度低,挖掘有效數據信息的難度較大;二是大數據的重要特征之一是數據是實時更新變化的,因而算法的標準不僅是準確度,更應該將實時性納入大數據算法的考慮范疇;三是分析結果的有效性和實用性是數據統計分析面臨的重要問題。上述挑戰對現代統計分析技術和方法提出更高的要求,面對結構多樣、內容復雜的數據,機器學習、統計分析、數據挖掘等傳統的分析技術需要更新內容才能應對新的挑戰。

(4)數據挖掘。數據挖掘是大數據處理流程中的關鍵環節,是從大量數據中挖掘有趣模式和知識的過程。數據挖掘與數據分析的不同之處在于不需要預先設定研究主題,而是通過各種算法,深入計算和分析收集到的數據,從大量數據中尋找其發展規律,以期得到預期的效果,滿足高級分析的特定需要,主要包括數據準備、尋找規律和表示規律三個步驟。數據準備是將所選取的數據進行整合形成數據集;尋找規律是指通過某些方法找出數據集合中隱含的規律;表示規律是指盡最大可能將找出的規律以用戶可以理解的方式表示出來。數據挖掘過程中的數據量較大且挖掘算法較為復雜是數據挖掘面臨的巨大挑戰,同時建立模型也是一個復雜的過程,需要辨別不同模型的適應性。

主站蜘蛛池模板: 晋城| 光山县| 东方市| 泸州市| 延边| 凯里市| 武平县| 银川市| 东辽县| 龙口市| 永修县| 梅州市| 镇原县| 长海县| 临城县| 高碑店市| 上饶市| 湘乡市| 五指山市| 确山县| 乐清市| 开原市| 巨鹿县| 宜城市| 吉安市| 任丘市| 镇赉县| 贡觉县| 灌云县| 纳雍县| 灵川县| 韶山市| 若羌县| 汝州市| 睢宁县| 南木林县| 会同县| 平谷区| 白朗县| 九江市| 米脂县|