官术网_书友最值得收藏!

第1章
大數據與Hadoop

本章主要內容:

● 大數據概念及來源。

● 大數據處理方式介紹。

● Hadoop簡介。

● 虛擬機的安裝與配置。

● Linux的操作系統的安裝。

● SSH(Secure Shell)。

本章首先介紹大數據的基礎知識,包括大數據的相關概念和典型處理方式,然后詳細介紹Hadoop框架。Hadoop是一個由Apache基金會開發的分布式系統基礎架構。 Hadoop的作者為Doug Cutting,照片如圖1-1所示,他也是Lucene、Nutch等項目的創始人。2004年,Cutting基于Google(谷歌)發布的關于GFS(Google File System)的學術文獻打造出了Hadoop。“Hadoop”并不是一串英文單詞的首字母縮寫,更沒有任何的意義,這只是Cutting的孩子給自己的黃色毛絨小象玩具起的名字。Hadoop可以讀作:[h?du:p]。

Hadoop的特點在于,用戶可以在不了解分布式底層細節的情況下編寫分布式程序,充分利用集群的威力進行高速運算和存儲。

Hadoop實現了一個分布式文件系統(Hadoop Distributed File System,簡稱HDFS)。HDFS有高容錯性的特點,并且設計用來部署在低廉(low-cost)的硬件上,而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了可移植操作系統接口的要求,可以以流的形式訪問文件系統中的數據。

Hadoop框架最核心的設計就是HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。

圖1-1

主站蜘蛛池模板: 应用必备| 伊春市| 轮台县| 获嘉县| 平远县| 乌恰县| 孝昌县| 繁峙县| 承德市| 沛县| 绍兴市| 商城县| 浦江县| 股票| 宜宾市| 钦州市| 都兰县| 常宁市| 霍林郭勒市| 山东省| 射阳县| 玉树县| 团风县| 卢龙县| 小金县| 涪陵区| 景宁| 南丹县| 五峰| 尚志市| 罗甸县| 平定县| 莱西市| 凤庆县| 彩票| 南靖县| 南漳县| 阿勒泰市| 丰城市| 邵阳市| 文水县|