- 智能與數(shù)據(jù)重構(gòu)世界
- (美)薄智泉 徐亭主編
- 2200字
- 2020-09-25 12:47:14
1.2 大數(shù)據(jù)的云計算平臺
當(dāng)前世界高市值的公司,如蘋果、亞馬遜、微軟、谷歌、騰訊、阿里巴巴和Facebook在很大程度上依靠的是中心化數(shù)據(jù)的價值。因此,數(shù)據(jù)被認為是基礎(chǔ)性的戰(zhàn)略資源和21世紀的“鉆石礦”。但是,要想快速準確地挖掘大數(shù)據(jù)的價值,必然面臨以下挑戰(zhàn)。①實時性。數(shù)據(jù)收集速度正在逐漸趨于實時(如用戶與網(wǎng)頁交互活動的點擊流數(shù)據(jù)、移動設(shè)備上的實時定位數(shù)據(jù)),同時數(shù)據(jù)分析可以對人們所處的環(huán)境產(chǎn)生即時影響,甚至左右人們的決策。數(shù)據(jù)價值不是固定不變的,非實時分析結(jié)果會大大降低大數(shù)據(jù)的價值。如果要處理Facebook每天新產(chǎn)生的300TB數(shù)據(jù),假設(shè)一臺機器每秒鐘可以處理50MB數(shù)據(jù),則共需要6×220秒或1747小時,顯然一臺機器不能做到實時處理。但是如果用73臺同樣的機器來處理這些數(shù)據(jù),則可以在24小時內(nèi)處理完。這說明大數(shù)據(jù)只能用多機并行的方式處理,這樣才能有效壓縮時間,滿足實時應(yīng)用的需求。②分布式存儲。當(dāng)采用分布式并行處理大數(shù)據(jù)時,傳統(tǒng)的數(shù)據(jù)庫技術(shù)很難滿足大數(shù)據(jù)存儲和分析的要求,因為簡單地在各處理地點復(fù)制大數(shù)據(jù)庫,必然會導(dǎo)致存儲效率低下。但是如果在每個處理地點只存儲部分數(shù)據(jù),則在數(shù)據(jù)更新頻繁的情況下,如何保障各地點的數(shù)據(jù)一致是一個新的挑戰(zhàn)。
云計算(Cloud Computing)是一種分布式計算平臺,其通過網(wǎng)絡(luò)來擁有大量可配置的計算資源(如網(wǎng)絡(luò)、服務(wù)器、存儲、應(yīng)用軟件)共享池,給用戶提供動態(tài)易擴展且通常為虛擬化的資源。它采用按照使用量付費的模式,提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,用戶只需要投入很少的管理工作,就可以快速獲得計算資源。因此,云計算技術(shù)是一種應(yīng)對大數(shù)據(jù)實時計算和高效存儲兩大挑戰(zhàn)的有效方法。在云計算系統(tǒng)中,數(shù)據(jù)存儲在不同的位置,并由云系統(tǒng)底層軟件匯集在一起;同時,并行云計算處理單元對大數(shù)據(jù)進行有效分析,得到有用的內(nèi)容。
1.2.1 云計算的服務(wù)形式
如圖1-3所示,云計算包括以下三個層次的服務(wù)。
(1)基礎(chǔ)設(shè)施即服務(wù)(Infrastructure-as-a-Service,IaaS)。客戶端用戶通過互聯(lián)網(wǎng)向云服務(wù)器(如華為云、阿里云)請求計算機的基礎(chǔ)設(shè)施資源(如主機、存儲和網(wǎng)絡(luò)硬件)服務(wù),以便利用這些資源運行應(yīng)用程序。
(2)平臺即服務(wù)(Platform-as-a-Service,PaaS)。PaaS將軟件研發(fā)的平臺作為一種服務(wù),也可以叫中間件。利用中間件進行云計算應(yīng)用的開發(fā)工作,可以大大節(jié)省時間和成本。
(3)軟件即服務(wù)(Software-as-a-Service,SaaS)。它類似于傳統(tǒng)的顧客服務(wù)器運行方式,即它通過互聯(lián)網(wǎng)來提供軟件,用戶無須購買軟件,而是向提供商租用軟件(如Googledoc)來管理企業(yè)的經(jīng)營活動。PaaS是SaaS模式的一種應(yīng)用。但是,PaaS主要是面向云計算平臺開發(fā)人員的,而SaaS則是面向最終用戶的。有了PaaS,SaaS應(yīng)用開發(fā),如軟件的個性化定制開發(fā)的速度可以大大加快,而且性能更好。

圖1-3 微軟云計算參考架構(gòu)
1.2.2 云計算的服務(wù)特點
如圖1-4所示,云計算包括以下五個服務(wù)特點。
(1)按需自助。消費者根據(jù)自己的需求,向云計算平臺申請且自動獲取資源,如服務(wù)器時間、網(wǎng)絡(luò)和存儲,而不必與服務(wù)提供商接觸。

圖1-4 云計算的五個服務(wù)特點
(2)廣泛的網(wǎng)絡(luò)訪問。無論何種客戶端(移動電話、平板電腦、筆記本電腦和個人工作站),都可以通過標(biāo)準機制訪問云計算平臺。
(3)資源池化。因為云服務(wù)提供商的資源分布在不同的位置,當(dāng)用戶需求提交后,云計算平臺會將不同的物理和虛擬資源動態(tài)地分配和再分配,但用戶通常不能掌控或了解資源的具體位置。也就是說,多租戶/消費者可以同時使用云計算平臺資源,而無須知道也無法知道所使用的資源的位置。
(4)快速彈性。用戶的資源需求是動態(tài)變化的,因此云計算平臺必須相應(yīng)地提供或釋放計算資源,以匹配等量的需求。彈性分配能力使消費者覺得無論何時何地都可以獲得無限資源。
(5)可度量服務(wù)。云計算平臺的資源使用(如存儲、帶寬和活躍用戶賬號數(shù))可以被監(jiān)視、控制及報告,并向服務(wù)提供商和服務(wù)使用者提供透明度,同時,云系統(tǒng)會自動控制和優(yōu)化資源的使用。
除了上述五個服務(wù)特點,云計算還存在安全風(fēng)險特性:一方面,云計算平臺可能遇到很多外來攻擊[6];另一方面,云計算服務(wù)當(dāng)前壟斷在民營企業(yè)手中,而它們僅僅能夠提供商業(yè)信用。一旦商業(yè)用戶使用私人機構(gòu)提供的云計算服務(wù),其安全信息就會暴露給云計算服務(wù)提供商,從而有可能被云計算服務(wù)提供商內(nèi)部惡意使用,如2018年3月發(fā)生的Facebook泄露用戶信息事件。因此,政府機構(gòu)、銀行、醫(yī)療機構(gòu)等,需要慎重選擇云計算服務(wù),或者采用私有云服務(wù)。
1.2.3 大數(shù)據(jù)云計算環(huán)境
從功能上看,云計算平臺相當(dāng)于傳統(tǒng)的計算機和操作系統(tǒng),其具有并行運算能力的軟件系統(tǒng)將大量的硬件資源(如CPU、GPU等)虛擬化后再進行分配使用。用戶先將數(shù)據(jù)通過存儲層存儲下來,然后根據(jù)需求建立數(shù)據(jù)模型,通過數(shù)據(jù)分析獲取相應(yīng)的價值。大數(shù)據(jù)要求高效處理海量數(shù)據(jù),但單臺計算機常常難以勝任,幸虧云計算可以提供強大的數(shù)據(jù)并行計算和分布式計算能力,能夠優(yōu)化大數(shù)據(jù)涵蓋的數(shù)據(jù)范圍。因此,在技術(shù)上,大數(shù)據(jù)必須依托云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和虛擬化技術(shù);在經(jīng)濟上,如果互聯(lián)網(wǎng)應(yīng)用的客戶群體不確定、系統(tǒng)規(guī)模不確定、系統(tǒng)投資不固定,云計算平臺可為數(shù)據(jù)處理提供一種靈活且經(jīng)濟可行的方式。
隨著各公司不斷采用云計算平臺來滿足數(shù)據(jù)處理的需要,傳統(tǒng)數(shù)據(jù)中心向云計算平臺轉(zhuǎn)變,云數(shù)據(jù)中心正成為新的企業(yè)數(shù)據(jù)存儲庫及計算資源的底層,支撐著上層的大數(shù)據(jù)處理。同時,市場也會對大數(shù)據(jù)實時交互式的查詢效率和分析能力提出更高的技術(shù)需求,迫使云計算實現(xiàn)技術(shù)上的改進、創(chuàng)新以應(yīng)對市場需求,所以,未來大數(shù)據(jù)和云計算始終處于相輔相成、不斷發(fā)展的狀態(tài)。
- 公有云容器化指南:騰訊云TKE實戰(zhàn)與應(yīng)用
- 數(shù)據(jù)可視化:從小白到數(shù)據(jù)工程師的成長之路
- App+軟件+游戲+網(wǎng)站界面設(shè)計教程
- 大數(shù)據(jù)導(dǎo)論
- 數(shù)據(jù)架構(gòu)與商業(yè)智能
- 辦公應(yīng)用與計算思維案例教程
- R語言數(shù)據(jù)挖掘
- INSTANT Apple iBooks How-to
- Python數(shù)據(jù)分析與數(shù)據(jù)化運營
- Filecoin原理與實現(xiàn)
- Delphi High Performance
- Practical Convolutional Neural Networks
- ORACLE 11g權(quán)威指南
- MySQL技術(shù)內(nèi)幕:InnoDB存儲引擎(第2版)
- Getting Started with Review Board