官术网_书友最值得收藏!

  • 典型Hadoop云計算
  • 趙書蘭編著
  • 3038字
  • 2018-12-27 06:30:13

1.5 Hadoop概述

Hadoop是一個分布式系統基礎架構,由Apache基金會開發。用戶可在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力速度運算和存儲。

Hadoop標志圖如圖1-3所示。

圖1-3 Hadoop標志圖

1.5.1 Hadoop的起源及簡介

Hadoop是由Apache Software Foundation公司于2005年秋天作為Lucene的子Hadoop logo項目Nutch的一部分被正式引入的。它受到最先由Google Lab開發的Map Reduce和Google File System(GFS)的啟發。2006年3月,Map Reduce和Nutch Distributed File System(NDFS)分別被納入稱為Hadoop的項目中。

Hadoop是最受歡迎的在Internet上對搜索關鍵字進行內容分類的工具,但其也可以解決許多要求極大伸縮性的問題。例如,如果您要grep一個10TB的巨型文件,會出現什么情況?在傳統的系統上,這將需要很長時間。但Hadoop在設計時就考慮到這些問題,采用并行執行機制,因此能大大提高效率。

Hadoop是Google集群系統的一個開源實現,是一個項目總稱。主要由HDFS、MapReduce和HBase組成。其中HDFS是Google File System(GFS)的開源實現;MapReduce是Google MapReduce的開源實現;HBase是Google BigTable的開源實現。

這個分布式框架很有創造性,而且有極大的擴展性,使得Google在系統吞吐量上有很大的競爭力。因此Apache基金會用Java實現了一個開源版本,支持Fedora、Ubuntu等Linux平臺。目前,Hadoop受到Yahoo的支持,而且Yahoo內部也準備使用Hadoop代替原來的分布式系統。

1.5.2 Hadoop的歷史

Hadoop從一個開源的Apache基金會項目開始,隨著越來越多的用戶加入,不斷地使用、貢獻和完善,形成一個強大的生態系統,從2009年開始,隨著云計算和大數據的發展,Hadoop作為海量數據分析的最佳解決方案,開始受到許多IT廠商的關注,從而出現了許多Hadoop的商業版,以及支持Hadoop的產品,包括軟件和硬件。

(1)2004年,Google發表論文,向全世界介紹了MapReduce。

(2)2005年初,為了支持Nutch搜索引擎項目,Nutch的開發者基于Google發布的MapReduce報告,在Nutch上開發了一個可工作的MapReduce應用。

(3)2005年年中,所有主要的Nutch算法被移植到使用MapReduce和NDFS(Nutch Distributed File System)來運行。

(4)2006年1月,Doug Cutting加入Yahoo,Yahoo提供了一個專門的團隊和資源將Hadoop發展成一個可在網絡上運行的系統。

(5)2006年2月,Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發展。

(6)2007年,百度開始使用Hadoop做離線處理,目前差不多80%的Hadoop集群用做日志處理。

(7)2007年,中國移動開始在“大云”研究中使用Hadoop技術,規模超過1000臺。

(8)2008年,淘寶開始投入研究基于Hadoop的系統——云梯,并將其用于處理電子商務相關數據。云梯1的總容量大概為9.3PB,包含了1100臺機器,每天處理約18 000道作業,掃描500TB數據。

(9)2008年1月,Hadoop成為Apache的頂級項目。

(10)2008年2月,Yahoo宣布其搜索引擎產品部署在一個擁有1萬個內核的Hadoop集群上。

(11)2008年7月,Hadoop打破1TB數據排序基準測試紀錄。Yahoo的一個Hadoop集群用209s完成1TB數據的排序,比上一年的紀錄保持者所保持的297s快了將近90s。

(12)2009年3月,Cloudera推出CDH(Cloudera’s Distribution including Apache Hadoop)平臺,完全由開放源碼軟件組成,目前已經進入第3版。

(13)2009年5月,Yahoo的團隊使用Hadoop對1 TB的數據進行排序只花了62s。

(14)2009年7月,Hadoop Core項目更名為Hadoop Common。

(15)2009年7月,MapReduce和Hadoop Distributed File System(HDFS)成為Hadoop項目的獨立子項目。

(16)2009年7月,Avro和Chukwa成為Hadoop新的子項目。

(17)2010年5月,Avro脫離Hadoop項目,成為Apache的頂級項目。

(18)2010年5月,HBase脫離Hadoop項目,成為Apache的頂級項目。

(19)2010年5月,IBM提供了基于Hadoop的大數據分析軟件——InfoSphere BigInsights,包括基礎版和企業版。

(20)2010年9月,Hive(Facebook)脫離Hadoop,成為Apache的頂級項目。

(21)2010年9月,Pig脫離Hadoop,成為Apache的頂級項目。

(22)2011年1月,ZooKeeper脫離Hadoop,成為Apache的頂級項目。

(23)2011年3月,Apache Hadoop獲得Media Guardian Innovation Awards 。

(24)2011年3月,Platform Computing宣布在它的Symphony軟件中支持Hadoop MapReduce API。

(25)2011年5月,Mapr Technologies公司推出分布式文件系統和MapReduce引擎——MapR Distribution for Apache Hadoop。

(26)2011年5月,HCatalog 1.0發布。該項目由Hortonworks在2010年3月提出,主要用于解決HDFS的存儲瓶頸。

(27)2011年4月,SGI(Silicon Graphics International)基于SGI Rackable和CloudRack服務器產品線提供Hadoop優化的解決方案。

(28)2011年5月,EMC為客戶推出一種新的基于開源Hadoop解決方案的數據中心設備,以助其滿足客戶日益增長的數據分析需求并加快利用開源數據分析軟件。EMC將通過一個基于分布式的Hadoop解決方案集成自己的Greenplum軟件,從而可以在一個可擴展的設備里進行海量數據分析任務(GFS+Greenplum)。Greenplum是EMC在2010年7月收購的一家開源數據倉庫公司。

(29)2011年5月,在收購了Engenio之后,NetApp推出與Hadoop應用結合的產品E5400存儲系統。

(30)2011年6月,Calxeda公司(之前公司的名字是Smooth-Stone)發起了“開拓者行動”,一個由10家軟件公司組成的團隊,該團隊將為基于Calxeda即將推出的ARM系統上芯片的服務器提供支持,并為Hadoop提供低功耗服務器技術。

(31)2011年6月,數據集成供應商Informatica發布了其旗艦產品,產品的設計初衷是處理當今事務和社會媒體所產生的海量數據,同時支持Hadoop。

(32)2011年7月,Yahoo和硅谷風險投資公司Benchmark Capital創建了Hortonworks公司,旨在讓Hadoop更加魯棒(可靠),并讓企業用戶更容易安裝、管理和使用Hadoop。

(33)2011年8月,Cloudera公布了一項有益于合作伙伴生態系統的計劃——創建一個生態系統,以便硬件供應商、軟件供應商,以及系統集成商可以一起探索如何使用Hadoop更好地洞察數據。

(34)2011年8月,Dell與Cloudera聯合推出Hadoop解決方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100機架服務器,以及Dell PowerConnect 6248以太網交換機。

1.5.3 Hadoop的功能與作用

為什么需要Hadoop呢?眾所周知,現代社會的信息量增長速度極快,這些信息里又積累著大量的數據,包括個人數據和工業數據。預計到2020年,每年產生的數字信息將會有超過1/3的內容駐留在云平臺中或借助云平臺處理。需要對這些數據進行分析和處理,以獲取更多有價值的信息。如何高效地存儲和管理這些數據,如何分析這些數據呢?這時可以選用Hadoop系統,它在處理這類問題時,采用了分布式存儲方式,提高了讀寫速度,并擴大了存儲容量。采用MapReduce來整合分布式文件系統上的數據,可保證分析和處理數據的高效。與此同時,Hadoop還采用存儲冗余數據的方式保證了數據的安全性。

Hadoop中HDFS的高容錯特性,以及它是基于Java語言開發的,這使得Hadoop可以部署在低廉的計算機集群中,同時不限于某個操作系統。Hadoop中HDFS的數據管理能力、MapReduce處理任務時的高效率,以及它的開源特性,使其在同類的分布式系統中大放異彩,并在眾多行業和科研領域中被廣泛采用。

1.5.4 Hadoop的優勢

Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點。

(1)高可靠性

Hadoop按位存儲和處理數據的能力值得人們信賴。

(2)高擴展性

Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。

(3)高效性

Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此其處理速度非常快。

(4)高容錯性

Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。

1.5.5 Hadoop的現狀與趨勢

由于Hadoop優勢突出,基于Hadoop的應用已經遍地開花,尤其是在互聯網領域。Yahoo通過集群運行Hadoop,以支持廣告系統和Web搜索的研究;Facebook借助集群運行Hadoop,以支持其數據分析和機器學習;百度則使用Hadoop進行搜索日志的分析和網頁數據的挖掘工作;淘寶的Hadoop系統用于存儲并處理電子商務交易的相關數據;中國移動研究院基于Hadoop的“大云”(BigCloud)系統用于對數據進行分析并對外提供服務。

2008年2月,Hadoop最大貢獻者的Yahoo構建了當時規模最大的Hadoop應用,它們在2000個節點上面執行了超過1萬個Hadoop虛擬機器來處理超過5PB的網頁內容,分析大約1MB個網絡連接之間的網頁索引資料。這些網頁索引資料壓縮后超過300TB。Yahoo正是基于這些為用戶提供高質量的搜索服務的。

Hadoop目前已經取得了非常突出的成績。隨著互聯網的發展,新的業務模式還將不斷涌現,Hadoop的應用也會從互聯網領域向電信、電子商務、銀行、生物制藥等領域拓展。相信在未來,Hadoop將會在更多的領域中扮演幕后英雄的角色,為我們提供更加快捷、優質的服務。

主站蜘蛛池模板: 灯塔市| 电白县| 高邑县| 温州市| 鹤山市| 荥经县| 青龙| 甘德县| 耿马| 海伦市| 滦平县| 吉安县| 图们市| 沙坪坝区| 栾川县| 龙川县| 凤阳县| 长子县| 阿尔山市| 天气| 曲水县| 巴林左旗| 双桥区| 新乡县| 平乡县| 永丰县| 雷波县| 新泰市| 阿勒泰市| 涞源县| 华蓥市| 五大连池市| 淮北市| 平定县| 潜江市| 关岭| 汤阴县| 中方县| 靖边县| 寻甸| 临城县|