- 一本書讀懂大數據時代
- 康路晨
- 4565字
- 2021-04-21 17:24:49
第1章 讀懂大數據時代的N個關鍵詞
麥肯錫最早預言了大數據時代的到來:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”IBM 則最早定義了大數據的特征:規模性Volume、多樣性Variety、價值性Value和高速性Velocity。
大數據是什么
4V特征
大數據(big data),也被稱為巨量資料,其被定義為無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。
麥肯錫最早預言了大數據時代的到來:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”IBM則最早定義了大數據的特征:規模性Volume、多樣性Variety、價值性Value和高速性Velocity。
4個“V”反映了大數據在四個層面上的特點:第一,數據體量巨大。從TB級別,躍升到PB級別,大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多,比如,網絡日志、視頻、圖片、地理位置信息等;第三,價值密度低、商業價值高,只要合理利用數據并對其進行正確、準確地分析,將會帶來很高的價值回報;第四,處理速度快,可從各種類型的數據中快速獲得高價值的信息,這一點和傳統的數據挖掘技術有著本質的不同。
云計算與物聯網
云計算是一種基于互聯網的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設備。而物聯網則是物物相連的互聯網。具體來說,物聯網的核心和基礎仍然是互聯網,是在互聯網基礎上的延伸和擴展的網絡;其用戶端延伸和擴展到了任何物品與物品之間,進行信息交換和通信。物聯網技術帶給事物的是一種技術上的革新,而它的載體還是原有的事物。
那么,云計算和物聯網之間是什么關系呢?
第一,云計算是實現物聯網的核心。物聯網時代,所有設備將實現互聯互通,隨之而來的則是巨大的數據量,而運用云計算模式,將使物聯網中數以兆計的各類物品的實時動態管理、智能分析變得可能。物聯網通過將射頻識別技術、傳感器技術、納米技術等新技術充分運用在各行各業之中,將各種物體充分連接,并通過無線等網絡將采集到的各種實時動態信息送達計算處理中心,進行匯總、分析和處理。
第二,云計算將成為物聯網的重要環節。云計算是以應用為目的,通過互聯網將大量必須的軟硬件按照一定的形式連接起來,并且隨著需求的變化而靈活調整的一種低消耗、高效率的虛擬資源服務的集合形式。物聯網強調物物相連,設備終端與設備終端相連,云計算能為連接到云上設備終端提供強大的運算處理能力,以降低終端本身的復雜性。
二者都是為滿足人們日益增長的需求而誕生的。
移動互聯網
近幾年來,智能手機、平板電腦等移動終端的普及,讓移動互聯網成為我們最貼身的媒體。毫不夸張地說,移動互聯網已經極大地改變了我們的生活方式。
移動互聯網的定義比較簡單,它是互聯網的技術、平臺、商業模式和應用與移動通信技術結合并實踐的活動的總稱,是一種通過智能移動終端,采用移動無線通信方式獲取業務和服務的新興業務,包含終端、軟件和應用三個層面。
移動互聯網的適用場合非常廣泛,可以滿足形式簡單的需求;它拓展了互聯網的用途,擴大了互聯網的市場,卻創造不了PC互聯網那樣的工業價值。
移動互聯網一共有三個入口:瀏覽器、App、二維碼。移動互聯網誕生之初,瀏覽器成為用戶在手機端延續桌上互聯網的行為習慣,但是隨著 iPhone 橫空出世,蘋果通過“IOS+App Store”重新定義底層結構,手機用戶開始學習使用本地 App 連接豐富的網絡服務,Android(Google Play)也隨之跟進,共同確立了“操作系統搭臺、應用程序唱戲”的游戲規則。應用商店成為用戶接入移動互聯網的入口;現在我們對二維碼越來越熟悉,它是指在一維碼的基礎上擴展出另一維具有可讀性的條碼,使用黑白矩形圖案表示二進制數據,被設備掃描后可獲取其中所包含的信息。二維碼提供了平臺式服務,它的應用有主讀和被讀的概念。
在國外,二維碼的平臺式服務指的是有一個平臺來供你生成二維碼,并在那后面附上圖片、文字、視頻等各種各樣的信息,并因此成為移動互聯網的第三層入口。
大數據思維
得大數據者得天下,應用大數據不僅要完善技術,更重要的是要建立大數據思維。簡單來說,大數據時代,我們必須用數據的眼光重新審視我們周圍的一切,將一切數據化,并且依托數據做出更為有效的決策。
就像維克托·邁爾-舍恩伯格所說:“每天早上起來想一下,這么多數據我能用來干什么,這些價值在哪里可以找到,能不能找到一個別人以前都沒有做過的事情。你的想法和思路,是最重要的資產。”因此,關于大數據,你一定要有以下幾點認識:首先,大數據并不在“大”,而在于“有用”。價值含量、挖掘成本比數量更為重要。
其次,大數據將改變企業的經營方式,基于大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。
大數據技術
感知技術
正如有一句話所說的“人類以前延續的是文明,現在傳承的是信息”,現在大數據的采集、存儲和分析變得越來越重要,而談起開發大數據價值的第一步——數據采集,我們就不得不說一下感知技術。
大數據的采集和感知技術的發展是緊密聯系的。全世界的工業設備、汽車、電表上有著無數的數碼傳感器,它們隨時可以測量和傳遞有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化等信息,并產生海量的數據信息。
而隨著智能手機的普及,感知技術可謂迎來了發展的高峰期,除了地理位置信息被廣泛地應用外,一些新的感知手段也開始登上舞臺,比如,2013年上市的“iPhone 5S”在home鍵內嵌入指紋傳感器;新型手機可通過呼氣感知直接檢測燃燒脂肪量;用于手機的嗅覺傳感器可以監測從空氣污染到危險的化學藥品;谷歌眼鏡InSight新技術可通過衣著進行人物識別;微軟正在研發可感知用戶當前心情的智能手機技術。
除此之外,還有很多與感知相關的技術革新讓我們耳目一新:比如,牙齒傳感器實時監控口腔活動及飲食狀況;嬰兒穿戴設備可用大數據去養育寶寶;Intel正研發3D筆記本攝像頭可追蹤眼球讀懂情緒;日本公司開發新型可監控用戶心率的紡織材料;業界正在嘗試將生物測定技術引入支付領域等。
事實上,這些感知被逐漸捕獲的過程就是世界被數據化的過程,一旦世界被完全數據化了,那么世界的本質也就是信息了。
存儲技術
大數據技術可以抽象地分為大數據存儲和大數據分析技術,這兩者的關系是:大數據存儲的目的是支撐大數據分析。到目前為止,這兩種技術還是兩種截然不同的計算機技術領域:大數據存儲致力于研發可以擴展至PB甚至EB級別的數據存儲平臺;大數據分析關注的是在最短時間內處理大量不同類型的數據集。
提到存儲,有一個著名的摩爾定律:每18個月集成電路的復雜性就增加一倍。這也就等于說,存儲器的成本大約每18~24個月就下降一半。存儲器成本的不斷下降也為大數據的存儲提供了可能性和可行性。
比如,現在,Google大約管理著超過50萬臺服務器和100萬塊硬盤,而且Google還在不斷地擴大計算能力和存儲能力,其中很多的擴展都是基于廉價服務器和普通存儲硬盤的基礎上進行的,這大大降低了其服務成本,因此可以將更多的資金投入到技術的研發當中。
以Amazon為例,Amazon S3 是一種面向 Internet 的存儲服務,其服務旨在讓開發人員能更輕松地進行網絡規模計算。Amazon S3的 Web 服務界面簡單明了,可以讓所有開發人員訪問同一個具備高擴展性、可靠性、安全性和快速廉價的基礎設施,同時用戶也可通過它隨時在 Web 上的任何位置存儲和檢索任意大小的數據。
如今,亞馬遜的AWS的性能表現相當好,其云存儲對象已達到萬億級別,對象執行請求也達到百萬的峰值數量。目前全球范圍內已經有數以十萬計的企業在通過AWS運行自己的全部或者部分日常業務。
這些企業用戶遍布190多個國家,幾乎世界上的每個角落都有Amazon用戶的身影。
云計算
云計算的概念,是麥肯錫在上世紀60年代提出的。他們提出,在未來,可以把計算能力作為一種像水和電一樣的公用事業提供給用戶。
云計算從提出到發展到現在這樣比較成熟的水平,主要經歷了四個階段,這四個階段依次是電廠模式、效用計算、網格計算和云計算。
電廠模式階段:電廠模式就好比是利用電廠的規模效應,來降低電力的價格,并讓用戶使用起來更方便,且無需維護和購買任何發電設備。
效用計算階段:在1960年左右,當時計算設備的價格是非常高的,遠非普通企業、學校和機構所能承受,所以很多人產生了共享計算資源的想法。1961年,“人工智能之父”麥肯錫在一次會議上提出了“效用計算”
這個概念,其核心借鑒了電廠模式,具體目標是整合分散在各地的服務器、存儲系統以及應用程序來共享給多個用戶,讓用戶能夠像把燈泡插入燈座一樣來使用計算機資源,并且根據其所使用的量來付費。
網格計算階段:網格計算研究的是如何把一個需要非常巨大的計算能力才能解決的問題分成許多小的部分,然后把這些部分分配給許多低性能的計算機來處理,最后把這些計算結果綜合起來攻克大問題。
云計算階段:云計算的核心與效用計算和網格計算非常類似,也是希望IT技術能像使用電力那樣方便,并且成本低廉。但與效用計算和網格計算不同的是,現在云技術的需求已經有了一定的規模,同時在技術方面也已經基本成熟。
現在,我們將云計算定義為基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。云計算甚至可以讓用戶體驗每秒10萬億次的運算能力,這個強大的計算能力可以模擬核爆炸、預測氣候變化和市場發展趨勢。
云計算與大數據密切相關,因為實時的大型數據集分析需要分布式處理框架來向數十、數百甚至數萬臺的電腦分配工作。可以說,沒有大數據的信息積淀,云計算的計算能力再強大,也難以找到用武之地;沒有云計算的處理能力,大數據的信息積淀再豐富,也終究只是鏡花水月。所以說,云計算是大數據得以發揮其價值的關鍵所在,沒有云計算技術的成熟,就不能說大數據時代真正地到來了。
分布式技術
隨著大數據時代的悄然到來,雖然數據分析一直以來都是IT產業的一部分,而且數據倉庫、數據挖掘、商業智能等一直在不停地為企業的發展和創新提供價值,但隨著數據規模的指數級增長,在數據處理方面,Hadoop技術無疑成為了時代的明星。
Hadoop技術并不是憑空想象出來的,它的出現源于人們創建和使用的數據量的爆炸性增長,脫胎于MapReduce(Google提出的一個軟件架構,是一種處理海量數據的并行編程模式,用于大規模數據集的并行運算。)的大數據分布式處理架構,是大數據生態系統的主角,而且許多的商業和產品的創新也圍繞這個架構產生。
Hadoop 是最受歡迎的在 Internet 上對搜索關鍵字進行內容分類的工具,但它也可以解決許多伸縮性極大的問題,它還可以使用戶在不了解分布式底層細節的情況下,充分利用集群的威力進行高速運算和存儲。
我們不妨一起來看看Hadoop的特性:可靠性。因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。
擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
高效性。Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非常快。
高容錯性。Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
低成本。與一體機、商用數據倉庫等數據集市相比,Hadoop是開源的,項目的軟件成本因此會大大降低。因為它以并行的方式工作,通過并行處理加快處理速度。此外,Hadoop 依賴于社區服務器,因此它的成本比較低,任何人都可以使用。