- 大數據挑戰與NoSQL數據庫技術
- 陸嘉恒編著
- 870字
- 2018-12-28 11:17:08
1.1 引子
MySpace是全球知名的在線交友平臺,自從2004 年創建以來用戶數迅速增長,直到Facebook崛起其用戶數量才不斷下降。雖然如今MySpace黯然衰落,但是其信息系統的發展值得大家借鑒,這里我們通過MySpace的例子[3]來說明互聯網公司是如何應對數據海量增長的,見表1-1。
表1-1 MySpace信息系統的發展階段

MySpace最初的用戶數量很小,兩臺Web服務器和一臺數據庫服務器就可以滿足用戶的訪問。后來隨著用戶的增加,MySpace公司通過增加Web服務器來應對訪問量的增長。而當用戶數量繼續增長時,數據庫服務器開始出現瓶頸,但是增加數據庫服務器并不像增加Web服務器那樣簡單,分布式事務的代價也很高。MySpace將用戶數據垂直分割,如將用戶的資料和博客存放于不同的數據庫服務器上,隨后又使用了存儲區域網絡(SAN),這種高帶寬的網絡可以將大量磁盤存儲設備連接在一起。
即使采用了以上措施,在用戶數增加到三四百萬的時候,數據庫服務器還是出現了瓶頸。于是MySpace采用分布式架構。為了使服務器負載均衡,MySpace對用戶數據水平劃分,每臺服務器存放二百萬用戶的數據。由于現有系統的水平擴展能力較差,MySpace開始使用微軟的解決方案,包括將系統采用.NET框架、數據庫采用SQL Server。之后,MySpace在Web服務層和數據庫層增加了緩存層,并將其硬件和軟件全面升級到64 位。盡管求助于微軟,但是MySpace的服務器經常超負荷運行,用戶等待的時間較長。
整個過程發生在2004—2006年,僅僅兩年時間MySpace的數據量增加了幾十倍,這是互聯網公司普遍遇到的問題,雖然后來MySpace受到Facebook崛起的影響其用戶群迅速下降,但是海量數據的存儲與管理仍然是互聯網公司繞不開的問題。IDC數據顯示,2006年全世界的電子數據存儲量為18萬PB,但是到了2011年這個數字已經到達180萬PB。
通過上面的案例我們可以看出,為了解決大數據及其高訪問量帶來的問題,MySpace嘗試了提高軟硬件配置、增加服務器數目、采用分布式架構等方法,這些方法雖然提高了系統的性能,但并未完全解決大數據的問題,隨著數據量的增加問題還會再次出現,大數據對現有IT架構的沖擊是不可避免的。為了應對大數據的挑戰,人們嘗試轉變思路,提出多種不同的解決方案,并構建各種各樣的管理系統,這些系統可以水平擴展,可以很好地管理與分析大數據。