官术网_书友最值得收藏!

第1章
Hadoop概述與大數據環境準備

主要內容:

? 大數據概念。

? Hadoop簡介。

? 虛擬機的安裝與配置。

? Linux的操作系統的安裝。

? SSH(Secure Shell)。

本章首先介紹大數據的基礎知識,然后對Hadoop框架進行詳細介紹,最后講解Hadoop平臺集群搭建的準備工作。Hadoop是由Apache基金會開發的分布式系統基礎架構,也是Apache軟件基金會的頂級開源項目,它的logo如圖1-1所示。Hadoop的作者為Doug Cutting,他也是Lucene、Nutch等項目的創始人。2004年,Cutting基于Google(谷歌)發布的關于GFS(Google File System)學術文獻打造出了Hadoop。

圖1-1 Hadoop logo

Hadoop的特點在于用戶可以在不了解分布式底層細節的情況下,開發分布式程序,充分利用集群的威力進行高速運算和存儲。

Hadoop實現了一個分布式文件系統(Hadoop Distributed File System,簡稱HDFS)。HDFS有高容錯性的特點,用來部署在低廉(low-cost)的硬件上,而且它提供高吞吐(high throughput)量來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了可移植操作系統接口的要求,可以以流的形式訪問文件系統中的數據。

Hadoop框架最核心的設計就是HDFS和MapReduce。HDFS為海量的數據提供了存儲,而MapReduce為海量的數據提供了計算。

主站蜘蛛池模板: 昌黎县| 汪清县| 南丹县| 寿光市| 施秉县| 定州市| 德昌县| 普宁市| 通州市| 晋江市| 七台河市| 钦州市| 石狮市| 报价| 仙桃市| 洮南市| 泾阳县| 鲜城| 广汉市| 奉新县| 丰原市| 威远县| 正阳县| 襄城县| 定陶县| 榆树市| 泾川县| 仙桃市| 喀喇| 安庆市| 安陆市| 仙居县| 龙川县| 长兴县| 崇左市| 江永县| 湖州市| 遂溪县| 井陉县| 靖宇县| 仪陇县|