書名： Hadoop+Spark大數據分析實戰
作者名：遲殿委編著
本章字數： 491字
更新時間： 2023-09-08 19:24:00

第1章
大數據與Hadoop

本章主要內容：

●　大數據概念及來源。

●　大數據處理方式介紹。

●　Hadoop簡介。

●　虛擬機的安裝與配置。

●　Linux的操作系統的安裝。

●　SSH（Secure Shell）。

本章首先介紹大數據的基礎知識，包括大數據的相關概念和典型處理方式，然后詳細介紹Hadoop框架。Hadoop是一個由Apache基金會開發的分布式系統基礎架構。 Hadoop的作者為Doug Cutting，照片如圖1-1所示，他也是Lucene、Nutch等項目的創始人。2004年，Cutting基于Google（谷歌）發布的關于GFS（Google File System）的學術文獻打造出了Hadoop。“Hadoop”并不是一串英文單詞的首字母縮寫，更沒有任何的意義，這只是Cutting的孩子給自己的黃色毛絨小象玩具起的名字。Hadoop可以讀作：[h?du:p]。

Hadoop的特點在于，用戶可以在不了解分布式底層細節的情況下編寫分布式程序，充分利用集群的威力進行高速運算和存儲。

Hadoop實現了一個分布式文件系統（Hadoop Distributed File System，簡稱HDFS）。HDFS有高容錯性的特點，并且設計用來部署在低廉（low-cost）的硬件上，而且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有著超大數據集（large data set）的應用程序。HDFS放寬了可移植操作系統接口的要求，可以以流的形式訪問文件系統中的數據。

Hadoop框架最核心的設計就是HDFS和MapReduce。HDFS為海量的數據提供了存儲，則MapReduce為海量的數據提供了計算。

圖1-1

官术网_书友最值得收藏!

Hadoop+Spark大數據分析實戰

第1章 大數據與Hadoop

第1章
大數據與Hadoop