- 大數(shù)據(jù):規(guī)劃、實施、運維
- 謝朝陽
- 3207字
- 2019-12-04 19:12:36
第1篇 大數(shù)據(jù)導論
新國際政治經(jīng)濟格局、新商業(yè)環(huán)境、新企業(yè)組織結構、新技術這四個維度,好比相互嵌套的拼圖,相互關聯(lián),相互影響。任何維度的范式變化都可能從根本上影響企業(yè)的發(fā)展,乃至國家的繁榮。
今日的世界經(jīng)濟社會由生產(chǎn)、流通和消費構成,世界的每個角落均與IT密切相關。IT對于企業(yè)發(fā)展的作用和性質(zhì)正不斷發(fā)生變化。這一變化對于企業(yè)運作和員工工作方式的影響是深遠的。“現(xiàn)金流、電流、物流、比特流”四流的暢通與匹配決定了社會的繁榮與否。IT可幫助企業(yè)更好、更快、更低成本地進行商業(yè)部署和業(yè)務流程。除必要的硬件、軟件投入外,三個維度決定了企業(yè)IT的特性:業(yè)務和商業(yè)流程、技術架構、運維保障。
第二次世界大戰(zhàn)之后,國際政治經(jīng)濟格局已經(jīng)發(fā)生了深刻變化。國家之間的關系直接影響著貿(mào)易往來,一個國家國力的盛衰也直接影響著這個國家的影響力、技術能力及產(chǎn)品輸出能力。我國的經(jīng)濟發(fā)展就直接受益于我國國力的強盛、國際影響力的提高。無論國際大環(huán)境如何瞬息萬變,開放、多極化的趨勢是確定的。在這個趨勢下,就要把握先機,優(yōu)先發(fā)展能深刻影響國計民生的先進信息技術,使其貢獻于軍事和社會生產(chǎn)各個方面,讓高端裝備業(yè)和高新信息技術產(chǎn)業(yè)“走出去”,讓“中國創(chuàng)造”進一步提升我國的經(jīng)濟實力和國際影響力。
國際商業(yè)環(huán)境也發(fā)生了深刻變化,行業(yè)的生態(tài)趨于復雜,競爭趨于激烈,企業(yè)的誕生和湮滅速度越來越快。綜觀1990年的日本、1997年的亞洲、2008年的美國、2009年的歐洲,危機和變革使很多被奉為管理典范的著名企業(yè)一蹶不振,甚至已經(jīng)不復存在。故步自封甚至抱殘守缺的企業(yè)難逃被淘汰的命運,只有堅持在技術、體制等方面持續(xù)創(chuàng)新才能使企業(yè)立于不敗之地。我國的傳統(tǒng)行業(yè)近年也經(jīng)受著互聯(lián)網(wǎng)浪潮的猛烈沖擊,最初一些企業(yè)認為互聯(lián)網(wǎng)的影響力只局限于信息行業(yè),懷著“不屑”的態(tài)度,從而錯過了“借力”或者“轉型”的機會。今天的傳統(tǒng)企業(yè)普遍認識到,互聯(lián)網(wǎng)已經(jīng)滲透到人們生活的方方面面,甚至已經(jīng)悄然改變了傳統(tǒng)行業(yè)的生產(chǎn)和銷售環(huán)節(jié)。大數(shù)據(jù)就是這波互聯(lián)網(wǎng)創(chuàng)新的主導力量之一。大數(shù)據(jù)的概念帶來了全新整合的對數(shù)據(jù)處理的實現(xiàn)方式,可打造新型的企業(yè)治理體系及產(chǎn)品架構。
企業(yè)的組織結構也在變化。組織結構變化的動因是更高效地獲取、處理來自企業(yè)內(nèi)外部的信息,并迅速做出反應。新的組織結構需要足夠的信息,來快速應對市場、競爭對手、商業(yè)環(huán)境的變化。結構決定功能,因此,企業(yè)的結構應當變得扁平化,管理不再只靠自上而下的控制,而更多地依賴成員的向心力和責任感。企業(yè)正變得開放,生態(tài)系統(tǒng)一環(huán)扣一環(huán),產(chǎn)業(yè)上下游之間需要協(xié)作,競爭對手在一定程度上也成為了合作伙伴。
有用信息的重要性正變得越來越高,新技術這一維度的進步和上述三個維度(國際政治經(jīng)濟格局、新商業(yè)環(huán)境、新企業(yè)組織結構)的范式變化是相互交錯、相互影響的。全面高效的信息系統(tǒng)會促進和支撐企業(yè)的轉型升級,使企業(yè)的運作更快、更好、更經(jīng)濟,從而更好地釋放生產(chǎn)力。新一代的IT必須是開放的、互連的、模塊化的,能打破信息“孤島”,能更有效地融合各方面的信息,從而為企業(yè)選擇合作伙伴、管理供應鏈、鎖定目標市場提供定量的決策依據(jù)。
“上帝創(chuàng)造了數(shù)字,人做剩下的事情”(God creates the numbers, men do the rest),一位數(shù)學家曾這么說。從有人類文明以來就有了數(shù)字,進而有了數(shù)據(jù),甚至可以說就有了大數(shù)據(jù)。為什么今天把大數(shù)據(jù)提到如此的高度呢?這和數(shù)據(jù)的產(chǎn)生量以及相應的處理能力(軟的、硬的)是分不開的。半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快,創(chuàng)造出了“大數(shù)據(jù)”這個概念。如今,這個概念幾乎應用到了所有和人類的智力與發(fā)展相關的領域中。歷史上,數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市等信息管理領域的技術的產(chǎn)生及更新,在很大程度上也是為了解決大規(guī)模數(shù)據(jù)的問題。
互聯(lián)網(wǎng)(社交、搜索、電商),移動互聯(lián)網(wǎng)(微博),物聯(lián)網(wǎng)(傳感器,智慧地球),車聯(lián)網(wǎng),GPS,醫(yī)學影像,安全監(jiān)控,金融(銀行、股市、保險),電信(通話、短信)等,每時每刻都在瘋狂地產(chǎn)生數(shù)據(jù),擁有數(shù)以億計用戶的互聯(lián)網(wǎng)服務時時刻刻在產(chǎn)生巨量的交互。據(jù)統(tǒng)計,全球每秒會有290萬封電子郵件被發(fā)送;每天會有2.88萬小時的視頻被上傳到Youtube; Twitter上每天會發(fā)布5千萬條消息;亞馬遜上每天產(chǎn)生630萬筆訂單;網(wǎng)友在Facebook上每個月要花費掉7千億分鐘;Google上每天需要處理24 PB的數(shù)據(jù)……并且,上述的記錄正在不斷被刷新。根據(jù)IDC做出的估測,數(shù)據(jù)量一直都在以每年50%的速度增長,也就是說,每兩年就增長一倍(大數(shù)據(jù)摩爾定律),并且大量新數(shù)據(jù)源的出現(xiàn)導致了非結構化數(shù)據(jù)、半結構化數(shù)據(jù)呈現(xiàn)爆發(fā)式的增長。預計到2020年,全球將總共擁有35億GB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長近30倍。這不是簡單的數(shù)據(jù)增多的問題,而是一個全新的挑戰(zhàn)。我們要處理的數(shù)據(jù)量實在太大、增長又太快,而業(yè)務需求和競爭壓力對數(shù)據(jù)處理的實時性、有效性又提出了更高要求,傳統(tǒng)的常規(guī)技術手段根本無法應付,必須運用新的大數(shù)據(jù)手段。
就大數(shù)據(jù)范疇內(nèi)研究的問題的基本特征來講,大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T),且非結構化數(shù)據(jù)比結構化數(shù)據(jù)增長快10~50倍。大數(shù)據(jù)的類型可以包括網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等,具有異構性和多樣性的特點,沒有明顯的模式,也沒有連貫的語法和語義,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。大數(shù)據(jù)價值密度相對較低,例如隨著物聯(lián)網(wǎng)的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,存在大量不相關信息,因此需要對未來趨勢與模式做可預測分析,利用機器學習、人工智能等進行深度復雜分析。而如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值提煉,是大數(shù)據(jù)時代亟待解決的難題。大數(shù)據(jù)所需的處理速度快,時效性要求高,需要實時分析而非批量式分析,因此,數(shù)據(jù)的連貫性分析處理,也是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的一個特征。
面對大數(shù)據(jù)的這些新特征,既有的技術架構和路線,面臨著高效地處理如此海量數(shù)據(jù)的挑戰(zhàn)。而對于相關組織來說,如果其斥巨資采集到的超大量數(shù)據(jù)無法通過及時處理來反饋有效信息,則成了有數(shù)據(jù)沒知識,那將是得不償失的。可以說,大數(shù)據(jù)對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更深刻、全面的洞察能力提供了前所未有的空間與潛力。
對大數(shù)據(jù)的認識本身就是人類求知的過程,從數(shù)字,到數(shù)據(jù),到信息,到知識,再到知識的運用,然后進入下一次循環(huán)。我們提一個問題:人類一天到晚究竟是在做什么?答案是做預測!大數(shù)據(jù)就是用來幫助人們從“已知”走向未知的。這里給已知加了引號,是因為我們所認為的已知未必就是真的已知。預測究竟能有多準?Most likely是最保險的答案。預測不準是常態(tài),預測準是概率事件。然而,預測雖然時有失敗,卻從未被人們放棄,它是人性中根深蒂固的東西。我們對于自己所處世界的事件進程預見得越多,數(shù)據(jù)集的質(zhì)量越高,就越有能力為應對這些事件做好準備,從而改善生活品質(zhì)。
改革開放以來,中國經(jīng)濟從體制機制到執(zhí)行層面進行了卓有成效的改革,取得了舉世矚目的成績。這一時期,我國的經(jīng)濟體量發(fā)生了巨大的增長,但是,在單純以量的增長為導向的情況下,容易催生粗放并短視的發(fā)展模式,在戰(zhàn)術層面上是“摸著石頭過河”,缺乏對模式及時、理性的調(diào)整。為了追求更深層次的經(jīng)濟發(fā)展,積極應對國際大環(huán)境的變化,具有原創(chuàng)性的技術革新、商業(yè)環(huán)境營造、模式創(chuàng)新等都會成為中國經(jīng)濟持續(xù)發(fā)展不可或缺的新動力。
今天全球新一輪的科技革命和產(chǎn)業(yè)分工調(diào)整對我國的工業(yè)發(fā)展既是挑戰(zhàn),也是實現(xiàn)趕超的機遇。推動信息化和工業(yè)化深度融合,以信息化帶動工業(yè)化,以工業(yè)化促進信息化,對于破解當前發(fā)展瓶頸,實現(xiàn)工業(yè)及商業(yè)的轉型升級,具有十分重要的意義。
大數(shù)據(jù)帶來的機遇,給了國內(nèi)企業(yè)以通過信息化轉型來實現(xiàn)逆襲的可能。本篇將引導讀者對大數(shù)據(jù)的背景、基本定義、建設意義、產(chǎn)業(yè)鏈現(xiàn)狀等形成一個初步的認識,展現(xiàn)大數(shù)據(jù)行業(yè)的大致面貌,由此開啟大數(shù)據(jù)之旅。
- 從0到1:數(shù)據(jù)分析師養(yǎng)成寶典
- 文本挖掘:基于R語言的整潔工具
- 區(qū)塊鏈通俗讀本
- 區(qū)塊鏈:看得見的信任
- 深入淺出Greenplum分布式數(shù)據(jù)庫:原理、架構和代碼分析
- Spark分布式處理實戰(zhàn)
- Hadoop 3實戰(zhàn)指南
- 數(shù)據(jù)修復技術與典型實例實戰(zhàn)詳解(第2版)
- 深入理解InfluxDB:時序數(shù)據(jù)庫詳解與實踐
- 大數(shù)據(jù)數(shù)學基礎(Python語言描述)
- Scratch 2.0 Game Development HOTSHOT
- 數(shù)據(jù)挖掘與機器學習-WEKA應用技術與實踐(第二版)
- Machine Learning for Mobile
- Building Multicopter Video Drones
- Spark大數(shù)據(jù)處理與分析