官术网_书友最值得收藏!

前言

大數(shù)據(jù)(Big Data)一詞越來(lái)越多地被提及,人們用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。現(xiàn)在的各個(gè)行業(yè)都依賴于大量數(shù)據(jù)的支撐,數(shù)據(jù)量也越來(lái)越龐大,關(guān)系型數(shù)據(jù)庫(kù)海量數(shù)據(jù)讀寫性能差、靈活度欠缺等缺點(diǎn)也暴露出來(lái)。因此,大量NewSQL數(shù)據(jù)庫(kù)在這個(gè)背景下誕生并被廣泛應(yīng)用,其中HBase就是這樣的一個(gè)分布式、可擴(kuò)展的數(shù)據(jù)存儲(chǔ)系統(tǒng)。HBase于2006年年底由PowerSet的Chad Walters和Jim Kellerman發(fā)起,2008年成為Apache Hadoop的一個(gè)子項(xiàng)目,現(xiàn)在已作為成熟產(chǎn)品應(yīng)用在淘寶、百度、天貓、菜鳥(niǎo)、阿里云、高德、優(yōu)酷等多家知名互聯(lián)網(wǎng)企業(yè),滿足業(yè)務(wù)對(duì)于大數(shù)據(jù)分布式存儲(chǔ)的基本需求。它不同于關(guān)系型數(shù)據(jù)庫(kù)著重于增、刪、改,而轉(zhuǎn)向著重于查詢,使數(shù)據(jù)讀取更加高效、安全。基于Hadoop生態(tài),HBase使用HDFS分布式存儲(chǔ)系統(tǒng)作為共享文件存儲(chǔ)系統(tǒng)。

HBase技術(shù)來(lái)源于Fay Chang所撰寫的論文Google BigTable,是BigTable的開(kāi)源實(shí)現(xiàn)。HBase在Hadoop上提供了BigTable的功能,現(xiàn)已成為Apache開(kāi)源項(xiàng)目的一個(gè)頂級(jí)項(xiàng)目。

在Hadoop生態(tài)圈中,HBase位于結(jié)構(gòu)化存儲(chǔ)層,HDFS為HBase提供了高可靠性的底層存儲(chǔ)支持,Hadoop MapReduce為HBase提供了高性能的計(jì)算能力,ZooKeeper為HBase提供了穩(wěn)定的failover(故障轉(zhuǎn)移)機(jī)制。此外,Pig和Hive還為HBase提供了高層語(yǔ)言支持,使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計(jì)處理變得非常簡(jiǎn)單,Sqoop則為HBase提供了方便的關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)導(dǎo)入功能。HBase在Hadoop生態(tài)圈中的地位可見(jiàn)一斑。

HBase和Hadoop一樣,目標(biāo)是通過(guò)橫向擴(kuò)展,添加普通機(jī)器來(lái)提高存儲(chǔ)性能和計(jì)算性能。HBase特點(diǎn):大(一個(gè)表可以有上億行以及百萬(wàn)級(jí)的列)、面向行存儲(chǔ)、稀疏(由于null不占用存儲(chǔ)空間,所以表結(jié)構(gòu)可以設(shè)計(jì)得非常稀疏)。因此,HBase和Hadoop一樣,目標(biāo)是通過(guò)橫向擴(kuò)展,添加普通機(jī)器來(lái)提高存儲(chǔ)性能和計(jì)算性能。

主站蜘蛛池模板: 泾源县| 汕头市| 博客| 旬邑县| 广灵县| 榆中县| 襄汾县| 全州县| 博乐市| 灵宝市| 兖州市| 阿勒泰市| 汽车| 白银市| 常德市| 包头市| 民勤县| 普格县| 新泰市| 辉南县| 崇礼县| 阜新| 永兴县| 六盘水市| 留坝县| 新泰市| 手游| 十堰市| 泾源县| 荣昌县| 台安县| 靖安县| 黔江区| 循化| 麻江县| 汉阴县| 临安市| 襄汾县| 萝北县| 灵丘县| 尉犁县|