官术网_书友最值得收藏!

第二節 大數據的基本知識

一、狹義的大數據

受早期研究者將數據作為一種工具思想的影響,很多研究機構和學者一般將大數據作為一種輔助工具或者從其體量特征來進行定義。

高德納(Gartner)咨詢管理公司數據分析師認為,大數據具有一種在正常的時間和空間范圍內,常規的軟件工具難以計算、提出相關數據分析的能力。

作為大數據研究討論先驅者的咨詢公司麥肯錫,在其大數據的研究報告《大數據:創新、競爭和生產力的下一個前沿》(Big Data:The next frontier for innovation,competition and productivity)中根據大數據的數據規模來對其詮釋。它給出的定義是:大數據指的是規模已經超出了傳統的數據庫軟件工具收集、存儲、管理和分析能力的數據集。需要指出的是,麥肯錫在其報告中同時強調,大數據并不能音譯為超過某一個特定的數字,或是超過某一個特定的數據容量才能命名為大數據,大數據隨著技術的不斷進步,其數據集容量也會不斷的擴大,行業的不同也會使大數據的定義不同。

電子商務行業的巨人亞馬遜的專業大數據專家對大數據的定義:大數據,指的是超過了一臺計算機的設備、軟件等處理能力的數據規模、資料訊息海量的數據集。

日本夜村綜合研究所的著名學者城田真琴和朱四明在其專著《大數據的沖擊》中通過對大數據的起源進行探討后,在關于什么是大數據中給出的定義為:大數據,指的是通過運用現有的一般技術而難以進行管理的大量數據集的集合。

簡以概之,對于大數據的狹義理解,研究者大多從微觀的視角出發,將大數據理解為當前的技術環境難以處理的一種數據集或者能力;而從宏觀方面進行定義的,研究者們目前還沒有提出一種可量化的內涵理解,但多數學者都提出了對大數據的宏觀理解,未來還需要保持大數據在不同行業領域不斷更新、可持續發展的觀念。

二、廣義的大數據

以對大數據進行分析管理,挖掘數據背后所蘊含的巨大價值為視角,對大數據的概念進行定義被認為是廣義大數據的概念。

維基百科對大數據給出的定義是:巨量數據,或稱為大數據、大資料,指的是所涉及的數據量規模巨大到無法通過當前的技術軟件和工具在一定的時間內進行截取、管理、處理,并整理成為需求者所需要的信息進行決策。

被譽為“大數據時代的語言家”的維克托·邁爾·舍恩伯格、肯尼思·庫克耶在其專著《大數據時代:生活、工作與思維的大變革》中對大數據的定義為:大數據是人們獲得新的認知、創造新的價值的源泉;大數據還未改變市場、組織機構,以及政府與公民關系服務。他們還認為大數據是人們在大規模數據的基礎上可以做到的事情,而這些事情在小規模的數據基礎上是無法完成的。

IBM組織對于大數據的定義則是根據大數據的特征進行詮釋,它認為大數據具有“3V”特征,即:數據量(volume)、種類(variety)和速度(ve locity),故大數據是指容量難以估計、種類難以計數且增長速度非常快的數據。

國際數據公司(IDC)則在IBM的基礎上,根據自己的研究,將“3V”發展為“4V”,認為大數據具有四方面的特征:數據規模巨大(volume),數據的類型多種多樣(variety),數據的體系紛繁復雜(velocity),數據的價值難以估測(value)。所以ibm對大數據的定義為:大數據,指的是海量規模、類型多樣、體系紛繁復雜且需要超出典型的數據庫軟件進行管理還能夠給使用者帶來巨大價值的數據集。

對關于大數據的定義進行梳理,我們可以發現,大多研究機構和學者對大數據的定義普遍從數據的規模量,以及對數據的處理方式出發,并且其數據的定義也多是從自身的研究視角出發的,因此人們對于大數據的定義可謂是仁者見仁,智者見智。

我們在參照了學術領域及各個研究機構和行業的基礎上,將大數據定義為:大數據,指在信息爆炸時代所產生的巨量數據或海量數據,并由此引發的一系列技術及認知觀念的變革。它不僅僅是一種數據分析、管理以及處理方式,也是一種知識發現的邏輯,通過將事物量化成數據,對事物進行數據化研究分析。大數據的客觀性、可靠性,既是一種認識事物的新途徑,又是一種創新發現的新方法。

三、大數據的特征

特征是對某一類事物區別于其他事物特性的抽象結果總結。對于大數據的特征的全面理解至少應從大數據的數據特征、技術特征以及其應用特征三方面進行。當前對于大數據的特征理解較為流行的是參照IDC的“4V”特征:數據類型(variety)、速度(velocity)、體量(volume)、數據價值(value)。我們在此參照當前的主流說法,按照“4V”特征來理解大數據,即大數據體量巨大(volume),數據種類繁多(variety),數據處理與流動速度快(velocity),數據價值密度低(value)。

(一)大數據體量巨大

當萬物皆數變成萬事皆數,我們的世界已逐漸被數據包圍。按數據的儲存對象來分可分為環境數據、醫療數據、金融數據、交通數據等。按照數據的結構進行劃分,我們存儲的數據除了結構化數據外,還包括各類非結構化數據(音像、方位、點擊流量),半結構化數據(電子郵件、辦公處理文檔)等。衡量數據量的單位從MB轉向TB再轉向PB,甚至逐漸地轉向ZB,以及今后會出現更高級別的數據量單位。人類社會的數據量巨大是大數據的基本屬性。互聯網、物聯網、科學研究等源源不斷產生的數據使得數據的規模呈現爆炸式的增長。

(二)大數據類型多樣

數據類型多樣、復雜多變是大數據的一個重要特性。多樣性的大數據也正是大數據價值所在,多樣化的數據類型和數據來源,為分析數據間相關性,挖掘數據間的價值提供了可能。

隨著物聯網、智能終端以及移動互聯網的飛速發展,各類組織中的數據也變得更加復雜,因為它不僅包含傳統的關系型數據,還包含來自網頁、互聯網日志文件(包括點擊流數據)、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統的傳感器數據等原始、半結構化和非結構化數據。

數據格式的多樣化與數據來源的多元化為人類處理這些數據帶來了極大的不便。大數據時代所引領的數據處理技術,不僅為挖掘這些數據背后的巨大價值提供了方法,也為處理不同來源、不同格式的多元化數據提供了可能;以往的數據量盡管巨大,但以結構化數據為主。這種數據一般運用關系型數據庫作為工具,通過計算機軟件和設備很容易進行處理。結構化數據是將某一類事物的數據數字化以便于我們進行存儲、計算、分析、管理。在某種情況下可以忽略一些細節,專注于選取有意義的資訊信息。處理這類數據,只需確定好數據的價值,設置好各個數據間的格式,構建起數據間的相互關系,進行保存即可,一般不需要進行更改。數據世界發展到目前,使得非結構化數據超越結構化數據,非結構化數據具有大小、內容、格式等結構不同,不能用一定的結構來進行框架搭建的特點,如我們在上網沖浪的過程中所看的電影視頻、旅游過程中上傳的照片、朋友圈發的說說、記錄的微博等都是非結構化數據。人們日常工作中接觸的文件、照片、視頻都包含大量的數據,蘊含大量的信息。有機構進行的統計顯示,在一個企業組織結構中,目前非結構化數據已占據了總數據量的75%以上,也有研究機構認為在85%以上。目前雖然在這方面還沒有一個精準、權威的統計數據,但足以說明非結構數據的增長速度不容小覷。

(三)數據處理與流動速度快

如果將大數據的速度僅限定為數據的增長率的話就錯了。這里的速度應動態地理解為對數據的處理速度與數據的流動速度。大數據對數據的處理要求為馬工枚速,這也是大數據與傳統數據處理的不同之處。

智能終端、物聯網、移動互聯網的普遍運用,個人所產生的數據,都會使數據呈現爆炸式的增長。新數據不斷涌現,舊數據的快速消失,都對數據處理的要求提出了硬性的標準。只有做到對數據的處理速度跟上甚至是超越大數據的產生速度,才能使得大量的數據得到有效的利用,否則不斷激增的數據不但不能為解決問題帶來優勢,反而成了快速解決問題的負擔。在數據處理速度方面,有一個著名的“1秒定律”,即大數據下,很多情況下都必須在1秒鐘或者瞬間形成結果,否則處理結果就是過時和無效的。對大數據要求快速、持續的實時處理,也是大數據與傳統海量數據處理技術的關鍵差別之一。

此外,數據不是靜止不動的,而是在移動互聯網、設備中不斷流動的,數據的流動消除了“數據孤島”現象,通過數據如水一般在不同的存儲平臺之間自由流動,將數據在合理的環境下進行存儲,使各類組織不僅能夠存儲數據,而且能夠主動管理數據。但也應該看到,對于這樣的數據,仍然需要得到有效的處理,才能避免其失去價值。

(四)數據價值密度低

數據采集的不及時、樣本的不全面、數據的不連續、數據失真等問題都可能導致大數據的價值密度低,但數據的價值密度低還可能來源于對非結構化數據的處理。傳統的結構化數據,盡管其樣本量比較小,但是在對結構化數據的處理上,是對該事物的抽象,每一條數據大多包含了使用者需要的信息。在大數據時代下,盡管擁有海量的信息,但是真正可用的數據信息只有一小部分,對于數據的處理不需要歸納抽象,直接保持著數據的全貌,因此也保留了大量的無用甚至可能是錯誤的信息。因此,如果將大數據比喻為石油行業的話,那么在大數據時代,重要的不是如何進行煉油(分析數據),而是如何獲得優質原油(優質元數據)。

以當前廣泛應用的監控視頻為例,在連續不間斷監控過程中,大量的視頻數據被存儲下來,許多數據可能是無用的,對于某一特定的應用,比如獲取犯罪嫌疑人的體貌特征,有效的視頻數據可能僅僅只有一兩秒,大量不相關的視頻信息增加了獲取這有效的一兩秒數據的難度。

盡管數據價值密度低為我們帶來很多不便,但應該注意的是,大數據的數據密度低是指相對于特定的應用,有效的信息相對于數據整體是偏少的,信息有效與否也是相對的,對于某些應用是無效的信息,對于另外一些應用則可能成為最關鍵的信息,數據的價值也是相對的,有時一條微不足道的細節數據可能造成巨大的影響。比如網絡中的一條幾十個字符的微博,就可能通過轉發而快速擴散,導致相關的信息大量涌現,其價值不可估量。因此為了保證新產生的應用有足夠的有效信息,通常必須保存所有數據,這樣就使得一方面數據的絕對數量激增,另一方面數據量達到一定規模,可以通過更多的數據獲得更真實全面的反饋。

思考題

1.闡述云計算與大數據的基本定義。

2.云計算的基本框架有哪幾部分?

3.狹義大數據與廣義大數據的不同點有哪些?

4.大數據的“大”體現在哪些方面?

主站蜘蛛池模板: 云林县| 玉环县| 吴川市| 灵寿县| 格尔木市| 疏勒县| 永福县| 东平县| 青河县| 仙桃市| 保靖县| 金阳县| 临海市| 威远县| 巩留县| 陈巴尔虎旗| 阳曲县| 连平县| 安塞县| 呼伦贝尔市| 宜宾市| 大埔区| 舟山市| 枣庄市| 德格县| 手游| 庆元县| 新化县| 靖远县| 慈溪市| 长泰县| 岳池县| 治多县| 柞水县| 楚雄市| 滕州市| 恩平市| 荔波县| 娄烦县| 镇原县| 丰台区|