官术网_书友最值得收藏!

1.4.1 分析類應用場景舉例

由于大數(shù)據(jù)分析中捕獲的數(shù)據(jù)量巨大,并且需要在數(shù)據(jù)專家和數(shù)據(jù)分析師團隊之間共享有限的資源,因此傳統(tǒng)的數(shù)據(jù)分析基礎架構(gòu)承受著巨大的壓力。各方呼吁推出一種全新的架構(gòu)和存儲形態(tài)。一些數(shù)據(jù)平臺團隊正在將Apache Hadoop和Spark大數(shù)據(jù)分析平臺作為其數(shù)據(jù)分析的主要工具,后端采用Hadoop分布式文件系統(tǒng)(HDFS)集群。不幸的是,由于HDFS通常不會在不同集群之間共享數(shù)據(jù),因此在大型計算集群中的每個集群間復制數(shù)據(jù)會付出很高的代價。

一些團隊希望其集群的分析工具盡量穩(wěn)定,因此不愿意更新版本,而其數(shù)據(jù)分析的業(yè)務單元需要加載最新的分析工具版本。最終,這些團隊都構(gòu)建了自己單獨的、量身定制的分析集群,以免與其他團隊競爭資源。使用傳統(tǒng)的Hadoop時,每個單獨的分析集群通常都有自己專用的HDFS數(shù)據(jù)包。

為了在不同的Hadoop / HDFS集群中能訪問相同的數(shù)據(jù),平臺團隊必須在集群之間復制非常大的數(shù)據(jù)集,以保持數(shù)據(jù)的一致性和時效性。因此,公司維護了許多單獨的固定分析集群(其中一家公司中有50多個集群)。每個集群在HDFS中都有自己的冗余數(shù)據(jù)副本。就資本支出(Capex)和運營支出(Opex)而言,在各個集群上維護5PB、10PB或20PB副本數(shù)據(jù)的成本都非常高。

Ceph和IaaS云、PaaS云的結(jié)合為解決上述一系列問題提供了新的方案。Ceph在底層多集群間可以實現(xiàn)數(shù)據(jù)自動同步,這大大降低了集群數(shù)據(jù)復制的開銷和運營成本,為Hadoop或Spark的大數(shù)據(jù)分析工具提供了另一種分布式存儲選擇。

主站蜘蛛池模板: 弋阳县| 平潭县| 咸宁市| 灵山县| 石景山区| 本溪| 普定县| 乌兰浩特市| 平陆县| 依安县| 安吉县| 五大连池市| 延庆县| 宽城| 化隆| 孟州市| 都兰县| 达州市| 宁波市| 北宁市| 荥经县| 来安县| 论坛| 即墨市| 嘉黎县| 永川市| 民勤县| 伊金霍洛旗| 凤台县| 双牌县| 滦南县| 三台县| 白河县| 北辰区| 中宁县| 盐边县| 太湖县| 讷河市| 汾西县| 元江| 洪江市|