- 信息資源管理
- 孫建軍主編
- 11字
- 2024-05-11 19:39:40
1.4 大數據與信息資源管理
1.4.1 大數據與智慧數據
當前,大數據作為重要的生產要素之一,已經滲透到各個行業和領域。從大數據主要發展節點來看,“大數據”一詞于1980年出現在《第三次浪潮》一書中,該書將“大數據”稱為“第三次浪潮的華彩的樂章”。2008年9月,《自然》雜志推出了名為“大數據”的封面專欄。2011年6月,麥肯錫發布了關于“大數據”的報告,正式定義了大數據的概念,后受到各界關注。2012年,美國奧巴馬政府在白宮網站發布了《大數據研究和發展倡議》。由于大數據的快速發展,2013年也被廣泛認為是中國的“大數據元年”。2015年10月,我國正式提出實施“國家大數據戰略”,標志著大數據戰略正式上升為國家戰略,開啟了大數據建設的新篇章。大數據時代的主要發展歷程如圖1-4所示。

圖1-4 大數據時代的主要發展歷程
大數據具有4V的典型特征,具體如下。
第一,數據量大(Volume)。超大規模是大數據的基本特征,大數據時代的數據計量單位從TB躍升到PB(1024TB)、EB(1024PB)或ZB(1024EB)。其中以非結構化數據增長最快,其數據量是傳統數據倉庫的10~50倍甚至更多。
第二,類型繁多(Variety)。海量的數據并非具有規整統一的結構,隨著數據來源增多,數據也逐漸多樣化,從類型來看包括網絡日志、音頻、視頻、圖片、地理位置信息等,從結構來看包括結構化、半結構化、非結構化數據,從形式來看包括圖像、音像、視頻等,異構、多樣的數據缺乏明顯模式、連貫的語義,對數據處理能力提出了更高的要求。
第三,價值密度低(Value)。從整體來看,類型繁多、超大規模的數據的確蘊含著規律和模式,但少量數據并不能揭示這樣的規律,也就是說大數據價值密度相對較低,在海量數據中同時存在大量不相關的甚至是干擾的信息,如何通過強大的機器算法更迅速地完成數據的價值提煉,是大數據利用亟待解決的難題。
第四,速度快、時效高(Velocity)。我們知道信息是具有時效性的,過時的信息其價值會大打折扣,甚至毫無用處,因此,在大數據處理過程中,不僅不能因為數據規模、復雜結構延誤處理時間,反而應該實時、快速地進行數據處理和分析,滿足相關主體需求。持續、連貫地進行數據的輸入、處理和分析,實時而非批量,這是大數據區別于傳統數據挖掘最顯著的特征之一。
大數據使得基于大數據的數據挖掘和知識發現成為可能,推動了研究范式和服務模式的發展,科學研究從問題驅動轉為數據驅動(見圖1-5)。另外,大數據的產生和發展正在對實際的管理活動產生影響,并進一步提高了管理與決策的準確性。

圖1-5 從問題驅動到數據驅動:“大數據”發現與預測
基于大數據的資源觀和管理的視角,可以認為大數據是一類能支持管理決策的重要資源。大數據資源管理的特征主要表現為復雜性、決策有用性、高速增長性、價值稀疏性、可重復開采性和功能多樣性六個方面。
①復雜性。大數據是海量的數據集合,它的形式、特征十分復雜多樣。這不僅表現在數據規模大、數據來源廣和形態結構多,還表現在其狀態變化和開發利用方式等的不確定性。
②決策有用性。大數據自身是客觀的、低價值密度的數據資源,其直接功用和價值比較有限。它的價值主要通過對其背后隱藏的信息進行分析、挖掘來實現,進而在實踐情境中提供利用價值、支持決策,這就是大數據的決策有用性。
③高速增長性。大數據資源與石油等自然資源不同,不可再生的自然資源會隨著人類開采利用而逐漸減少,但對數據資源的開采,非但不會減少其資源總量,反倒會增加,這種增長的速度可以很快,有時是指數性的,有時甚至具有爆發性。
④價值稀疏性。大數據具有低價值密度的特征,大數據的開發、利用也具有價值稀疏性,這也增加了開發和利用大數據資源的難度,成為大數據價值挖掘的主要挑戰之一。
⑤可重復開采性。自然資源的開發、利用過程通常是不可重復的,但大數據資源可以被重復開采。任何擁有數據使用權的人或組織都可以對其進行開采。在這個重復開發的過程中,數據資源的價值會隨之大大提高。
⑥功能多樣性。不同主體可以基于不同的開發目的,對大數據進行開發,基于不同的開發目的和方式,賦予了數據資源多樣化的功能,如公共管理、商業分析等[19]。
另外,“智慧數據”是近幾年來的新提法,即通過對任何規模的可信的、情境化的、相關切題的、可認知的、可預測的和可消費的數據的使用來獲得重大的見解和洞察力,揭示規律,給出結論和對策[20]。不同領域對智慧數據的理解會有所差異。在數字人文領域,智慧數據更加強調語義互聯和專題數據庫建設等內容,例如國際文化歷史項目“文化歷史的網絡框架”,通過關聯維基數據、藝術家辭典、藝術家聯合人名規范文檔等多個來源的數據,重現了跨越三千年的歐美文化遷徙模式。在智慧城市領域,智慧數據則傾向于強調數據的透明性、協同性、開放性、安全性等。實際上,智慧數據本身就是大數據的升級與延伸,其基本邏輯路徑和目標是促使大數據更加智慧、智慧數據更大,以此實現數據與智慧的充分結合。