官术网_书友最值得收藏!

第3章 大數據,你還不知道的部分(1)

FB數據單元--信息導航圖

數據是由什么組成的?一個數據單元有多大?怎樣產生和傳送?

這是我們首先要知道的基本問題。曾經有人把數據比喻成花粉,蜜蜂搬運花粉使果實得以產生。每一個花朵都是數據產生源,蜜蜂承擔著數據搬運工的工作。我認為這個比喻非常恰當,但有更好的概括--數據就像人體的血紅細胞,一個數據單元就是一組營養單元,由肝臟產生,輸送到身體各處,供應器官的需要。

數據單元是信息傳輸的基本單位。特別是在網絡中,一般的網絡連接不會允許將任意大小的數據包進行傳送,它有嚴格的規則,采用分組技術將一個數據分成若干個很小的數據包,并且給每一個小數據包都加上它的屬性。這個屬性是與傳輸有關的,包括源IP地址、目的IP地址、數據的長度等。

和血液一樣,它有固定的目的地。所以,我們把一個這樣的小數據包稱作數據單元,也可以稱為數據幀或幀。如此一來,數據信息流的特點就明確了,每次要傳送的數據都是特點鮮明的“包裹”,它們的規格和封裝方式都是相同的。這有利于數據傳輸的標準化,也簡化了它的產生、加工、包裝和傳送方式,使得大規模應用數據成為了可能。

我們發現,任何一個數據組織都有它的既定體系。在這個體系中,可以劃分為位、字符、數據元、記錄、文件和數據庫六個層級。前一個層級的數據元組合產生了后一個層級,最終實現了更大規模的數據集合。

在這六個層級中,“位”數據處于第一層,一般的用戶不需要探究,但后面五個層級則需要我們掌握,因為它們是人們在輸入和請求數據時要應用到的。

當不同的數據包或數據元素之間存在著特定關系(一種或很多種)時,它們就構成了數據結構,也就產生了“電腦存儲和組織數據”的特定方式。人們認真選擇的數據結構能夠帶來更高的運行或者存儲效率。這時,檢索和索引技術的需求就隨之產生了。更好的技術可以讓我們的檢索更加高效。

我的朋友沙尼爾是一位任職于谷歌公司的大數據專家,他在去年出版的名為《數據算法與應用》的書中對于數據的性質這樣解釋:

“數據結構代表著一種聯系,它是數據對象及存在于該對象的實例和構成該實例的數據元素之間的各種聯系。同時,這些聯系可以通過定義有關的函數給出并量化?!?

數據對象又是什么呢?沙尼爾認為,一個數據對象是實例或者值的集合,而數據結構是抽象數據類型(ADT)的物理實現。他將一個數據結構的設計過程分成抽象層、數據結構層和實現層這三個層級。在這其中,抽象層是指抽象數據的類型層,它討論的是數據的邏輯結構及其運算,數據結構層和實現層則更貼近于形象化和實用性,它們討論的是一個數據結構的表示和在電腦中的存儲細節以及這種運算的實現。

如果我們結合現實應用,將數據結構解剖開來,會看到什么?你立刻就會發現自己已經漂浮在數據王國的海洋之上,它們離你是如此之近,并時時刻刻與你的生活發生著關系。

●字符

當我們輸入一個字符時(通過鍵盤或其他設備),系統會直接將字符譯成某特定的編碼系統中的一串位的組合。一個字符在電腦中占8位,即一個字節。這就是字符,也是一般而言數據的最基本單位。同時,電腦系統可以使用不只一種編碼體制來處理字符。比如,某些系統將ASCII編碼體制用于數據通信,而把EBCDIC編碼體制用于數據的存儲。廣義上,我們在紙上寫下一個漢字單詞、一個阿拉伯數字,也可視作“數據”中的一個字符。

●數據元

數據元是數據的層次體系中最低一層的邏輯單位。我們為了形成一個邏輯單位,需要將若干位和若干的字節(字符)組合在一起。比如一句完整的話,一段完整的富有邏輯的代碼,一個最小的信息流等。因此,數據元也可稱作字段。它是泛指的,其中的數據項才是數據實體,比如一個完整的手機號是一個數據元,138或后面的數字按段分開,則是具有單獨存在意義的數據項。

●記錄

數據元以邏輯相關的形式組合在一起,就形成了一個數據記錄。價值在這時候開始陡然提升。比如一條員工記錄--編號、姓名、性別、職稱、所屬部門--包含了若干的數據元,它們之間有邏輯相關性,再加上輔助性的數據項,就構成了完整的記錄。這是數據庫中存取的最低一層的邏輯單位。

●文件

一個完整的文件是由信息和介質構成的,它是被命名的、存儲在某種介質上的一組信息的集合體。比如一篇文章、一張唱片、一份合同,甚至于一本書,都可稱為數據元件。一個文件在邏輯上可劃分成若干的記錄,那么文件就以記錄序列的形式體現。文件與存儲介質無關,介質的改變不會改變文件的性質和它的價值。

●數據庫

數據庫是最大的層級,它是一組有序數據的集合。在這組有序數據中,包含大量的文件--這些文件之間互相又具有邏輯相關性,并以某種檢索價值被標注。根據不同的應用需求和不同的領域,人們有時也將數據庫分成若干段,而不是唯一存在。數據庫有備份,可以隨時檢索、整理和利用,也可以隨時被有權限的人更改。

核心:整理、分析、預測、控制

“大數據”的核心并不是我們擁有了多少數據,而是我們拿數據去做了什么。如果只是堆積在某個地方,數據是毫無用處的。它的價值在于“使用性”,而不是數量和存儲的地方。任何一種對數據的收集都與它最后的功能有關。如果不能體現出數據的功能,大數據的所有環節都是低效的,也是沒有生命力的。

☆整理

整理有兩個目的,一是將所有的數據歸類,把它們放到該去的地方;二是利于我們檢索,隨時調取數據進行利用。這和我們整理書架的目的是一樣的。面對同樣的數據,不同的整理方法決定著我們的效果是好還是壞。

美國國會圖書館的檢索工程更新很能說明“整理”的重要性。在國會圖書館,人們曾經經歷過一段困難時期,因為信息量隨著網絡技術的發達不斷暴漲,就連保存的推特(Twitter)信息(只是圖書館數據中很小的一部分)就達到了接近兩千億條,存儲文件的體積更達到133TB。刪除是不可能的,因為每一條信息都已經在這套社交網絡中獲得了讀者的分享與轉載--那么,如此龐大的數據應該如何整理?

技術團隊需要想盡一切辦法、窮盡所有智慧才能拿出切實可行的檢索方案,讓圖書館的用戶可以方便地利用這些信息。也就是說,技術人員必須著手建立一套幫助研究人員(包括其他用戶)快速訪問社交平臺數據的系統,因為隨著網絡工具和文化潮流的不斷發展,人們都在趨向于電子閱讀而不是來看紙質書。

從2000年開始,圖書館就啟動了整理歸檔的工作--那時的難度較小,因為尚未接入社交網站,政府內部的系統儲存的數據在一定時間內是靜態的,增長速度較慢。雖然數據的總量也超過了300TB,但工作人員覺得:“總有一天可以整理清楚?!?

然而,推特的出現令圖書館的歸檔工作陷入了痛苦的僵局。圖書館方面實在找不到合適的辦法來保證信息易于搜索,在這個過程中還不能出現無法容忍的錯誤。如果繼續使用舊的方式--磁帶存儲,那么僅查詢一條2006年到2010年之間的推特信息可能就要耗費一天,如果查詢期限再加上一年,所要的時間就要增加四倍。

國會圖書館的一位工作人員費舍爾說:“我們在龐大的數據面前感到頭疼,整理成為了一個不可能完成的工作。如果無法把它們歸類,這些數據就變成了包袱,需要它們的人檢索不到,我們卻又不得不保管它們?!?

推特的信息之所以難于整理,一方面是由于它的數據量過于龐大,另一方面的原因則十分現實,因為每天都會有新數據不斷地加入進來。就像我們的微博一樣,每分鐘都有大量的新信息產生,人們不斷在發微博。所以,這種增長速度會不斷地提升,要用傳統方法把它整理好,幾乎是不可能的。

此外,這類信息的種類也越來越多樣,比如普通的推特信息、利用軟件客戶端發出的自動回復信息、手動回復信息、包含鏈接或者圖片的數據等等。經常使用微博的人對此心知肚明。傳統方法在新的數據更新特點面前,根本無從下手。

費舍爾說:“如何尋找解決方案?道路是曲折的。我們開始的時候考慮分布式及并行計算方案,但這兩類系統實在太過昂貴。要想真正地實現搜索時間的顯著降低,就需要構建起由數百臺甚至幾千臺的服務器構成的龐大的基礎設施。天!想想都不可能,這對于我們這種毫無商業收益的機構來說,成本實在太高了,一點也不符合實際?!?

圖書館最后找到了大數據工程師。專家針對圖書館的具體情況,給出了一系列的實用方案。開源數據庫工具Raik的創始人菲利普斯建議采取分類處理的方式,即利用一款工具處理數據存儲、一款工具負責檢索工作,另一款則用于回應查詢請求,非常簡單有效地完成了整理的工作,讓海量的新信息與龐大的舊數據完美融合,也保證國會圖書館實現了數據庫的更新換代。

在整理完成以后,數據的總量增加了幾十倍(每時每刻仍在增加),檢索速度反而比以前更快,甚至已經實現了檢索結果瞬間到位。

☆分析

分析是指對于數據進行“有效分析”。數據往往規模巨大,成分復雜,且來源不一。尤其在大數據時代,數據往往同時具有四個特點,簡稱4個V:數據量(Volume)大、速度(Velocity)快、類型(Variety)雜、價值密度(Value)低。怎樣在最短的時間內做出最有效的分析,就成了一項核心工作。

隨著大數據時代的來臨,大數據分析也緊跟著應運而生。而且,傳統的數據分析也在與大數據分析進行融合。

目前人們對于數據的解決方法主要還是這幾個方向:數據怎么做預處理?歸檔的文檔怎么能夠及時查詢?如何使用你的挖掘和分析技術來看到視野范圍內的全息的大數據內容?在海量數據面前,傳統的分析方式是做不到的。

數據分析的弱點也是需要我們警惕和謹慎思考的。去年六月份,有一位投行的華人高管蔡先生找到我。他正在考慮是否要退出歐洲市場,因為經濟形勢太不景氣了。他覺得將來一定會發生歐元危機,一旦危機爆發,公司就會陷入破產的困境。

沒錯,經濟有可能低迷,這是一個潛在的事實。但是,我提醒蔡先生注意另一個事實,那就是這家投行在歐洲已有近五十年的經營史,樹大根深,有了很龐大的市場,也有大量的老用戶。假如這時退出歐洲,會不會讓人們覺得這家投行一遇到風吹草動就棄械投降、根本不值得信任呢?

蔡先生恍然大悟,他馬上決定不能清算公司在歐洲的業務,不管未來有什么危機都要堅持下去,即便在短期內付出巨大的代價,也在所不惜。在做出這個決策時,蔡先生并沒有忽視那些經濟層面的數據,在我的建議下,他采用了另一種不同的思維方式,在數據的考量中納入了更多更全面的信息。在困境中做出正確決策的人和機構,往往能夠贏得更多的尊敬,而這不是傳統的數據分析可以捕捉到的。

蔡先生的故事在告訴我們數據分析的威力之外,也充分體現了數據分析的短處和局限。雖然人類的生活現在由收集數據的電腦在調控指揮,當人的大腦無法及時理解和判斷情況時,數據也可以幫我們解讀和分析它的意義,并且幫助我們彌補對于直覺、情感的過分依賴,減輕我們內心欲望對于理性的扭曲。但歸根結底,數據并不能代替人的思考,只有明確數據的真實價值,才有助于我們擺脫對數據的完全依賴。

真正的大數據分析就是要幫我們搞明白數據的真實價值,它在研究大量數據的過程中尋找模式、相關性和其他的有用信息,來幫助人們和企業更好地適應變化,并且做出那些真正明智的決定。

在大數據的層面上,對海量數據有四個不同的方向和解決工具:1.技術上解決了廉價數據的問題;

2.幾乎可以實時地對數據進行分析,而不會有任何滯后,保證了數據的實效性;

3.大數據的可視化和發現性,使得搜索與可視化成為熱門應用,也讓數據更加精確;

4.在設備層面,擁有了經過優化的一體機設備,使得數據制造和分析更加便捷,成本也更低。

即便擁有最好的技術,在對數據進行分析前,人們也應該先了解數據的真實含義--就像了解自己一樣。如果你對于數據是陌生的,那么作為一個決策者來說,你對于自己的事業就是十分危險的。現在許多產品經理、設計師和高管在沒有完全理解數據的真實含義的情況下,就直接根據數據來修改自己的產品設計、做出完全基于數字邏輯的決策,結果往往事與愿違,導致糟糕的結果。

☆預測

大數據技術就像一面細致入微的顯微鏡,不但能夠收集和分析最不起眼的信息,而且能夠基于這些信息之間的邏輯關系做出科學決策。就像我們可以根據人的表情與言詞判斷他接下來的行為、量度他內心的情感狀態一樣,預測功能在商業、經濟乃至其他領域都有助于政府和企業管理者做出更多的理性決定,而不僅僅是依靠直覺和經驗。

IBM公司的能源電力應用部門經理布蘭德說:“我們運用大數據預測風電和太陽能,精確地預測來自太陽能和風能的電力產出,取得了很好的效果。這是一種前所未有的創新模式,將使能源電力行業解決可再生能源的間歇性缺陷。”

IBM公司開發了一種結合天氣和電力預測的智能系統,提高了系統的可用性并優化了電網的性能。它是足夠改變游戲規則的新發明,結合大數據分析和天氣建模技術而成,是現在全世界最先進的能源電力解決方案,可以提高可再生能源的可預測性。

這項名為“HyRef”(混合可再生能源預測)的大數據預測技術,利用天氣建模能力、先進的云成像技術和天空攝像頭,接近實時地去跟蹤云的移動,并且通過傳感器來監測風速、溫度和方向。通過精確的分析,能為風電企業提供未來30天的區域內的精準天氣預測,或者未來15分鐘的風力增量。這就使能源公司有條件將更多的可再生能源并入生產線,減少碳排放量,然后制造更多的清潔能源。

這種預測能力讓我們的生產模式得到真正的升級,而且可以應用到其他領域,比如天然氣、煤炭或其他傳統行業。不僅在實體產業,非制造業的服務產業對于大數據預測的需求更盛,也有著更廣闊的市場。例如,可以幫助企業和政府機構進行業務(服務)分析與預測,對工作量身定制,降低成本,事先應對危機;再比如,可以對房地產銷售的價格走勢進行預測,它的精確性遠遠超過傳統的房地產分析師。我們每個人都將從中受益無窮。

☆控制

主站蜘蛛池模板: 黑山县| 独山县| 宝坻区| 淮北市| 呼玛县| 隆林| 湘乡市| 沾益县| 阳高县| 武城县| 文昌市| 西贡区| 建瓯市| 汾西县| 电白县| 英吉沙县| 汤原县| 桃源县| 延长县| 洛扎县| 崇信县| 正宁县| 峨眉山市| 筠连县| 沿河| 马边| 宜兴市| 北流市| 台南市| 诸城市| 安庆市| 札达县| 江津市| 恩施市| 砚山县| 邳州市| 增城市| 大竹县| 房山区| 周至县| 宁安市|