- Ceph企業(yè)級分布式存儲:原理與工程實踐
- 景顯強 龔向宇 黃軍寶
- 573字
- 2021-11-05 10:18:44
1.4.1 分析類應用場景舉例
由于大數(shù)據(jù)分析中捕獲的數(shù)據(jù)量巨大,并且需要在數(shù)據(jù)專家和數(shù)據(jù)分析師團隊之間共享有限的資源,因此傳統(tǒng)的數(shù)據(jù)分析基礎架構(gòu)承受著巨大的壓力。各方呼吁推出一種全新的架構(gòu)和存儲形態(tài)。一些數(shù)據(jù)平臺團隊正在將Apache Hadoop和Spark大數(shù)據(jù)分析平臺作為其數(shù)據(jù)分析的主要工具,后端采用Hadoop分布式文件系統(tǒng)(HDFS)集群。不幸的是,由于HDFS通常不會在不同集群之間共享數(shù)據(jù),因此在大型計算集群中的每個集群間復制數(shù)據(jù)會付出很高的代價。
一些團隊希望其集群的分析工具盡量穩(wěn)定,因此不愿意更新版本,而其數(shù)據(jù)分析的業(yè)務單元需要加載最新的分析工具版本。最終,這些團隊都構(gòu)建了自己單獨的、量身定制的分析集群,以免與其他團隊競爭資源。使用傳統(tǒng)的Hadoop時,每個單獨的分析集群通常都有自己專用的HDFS數(shù)據(jù)包。
為了在不同的Hadoop / HDFS集群中能訪問相同的數(shù)據(jù),平臺團隊必須在集群之間復制非常大的數(shù)據(jù)集,以保持數(shù)據(jù)的一致性和時效性。因此,公司維護了許多單獨的固定分析集群(其中一家公司中有50多個集群)。每個集群在HDFS中都有自己的冗余數(shù)據(jù)副本。就資本支出(Capex)和運營支出(Opex)而言,在各個集群上維護5PB、10PB或20PB副本數(shù)據(jù)的成本都非常高。
Ceph和IaaS云、PaaS云的結(jié)合為解決上述一系列問題提供了新的方案。Ceph在底層多集群間可以實現(xiàn)數(shù)據(jù)自動同步,這大大降低了集群數(shù)據(jù)復制的開銷和運營成本,為Hadoop或Spark的大數(shù)據(jù)分析工具提供了另一種分布式存儲選擇。
- Linux運維之道(第3版)
- 構(gòu)建高可用Linux服務器(第4版)
- Designing Purpose:Built Drones for Ardupilot Pixhawk 2.1
- Learning Windows Server Containers
- 精通Linux內(nèi)核開發(fā)
- PLC控制系統(tǒng)應用與維護
- 計算機應用基礎(Windows 7+Office 2016)
- Vim 8文本處理實戰(zhàn)
- 跟老男孩學Linux運維:Shell編程實戰(zhàn)
- Linux系統(tǒng)最佳實踐工具:命令行技術(shù)
- Kali Linux高級滲透測試(原書第3版)
- Linux內(nèi)核API完全參考手冊(第2版)
- 大學計算機應用基礎實踐教程(Windows 7+MS Office 2010)
- Linux深度攻略
- OpenSolaris紅寶書