- Hadoop大數據分析技術
- 遲殿委 陳鵬程主編
- 433字
- 2023-07-17 19:53:49
第1章
Hadoop概述與大數據環境準備
主要內容:
? 大數據概念。
? Hadoop簡介。
? 虛擬機的安裝與配置。
? Linux的操作系統的安裝。
? SSH(Secure Shell)。
本章首先介紹大數據的基礎知識,然后對Hadoop框架進行詳細介紹,最后講解Hadoop平臺集群搭建的準備工作。Hadoop是由Apache基金會開發的分布式系統基礎架構,也是Apache軟件基金會的頂級開源項目,它的logo如圖1-1所示。Hadoop的作者為Doug Cutting,他也是Lucene、Nutch等項目的創始人。2004年,Cutting基于Google(谷歌)發布的關于GFS(Google File System)學術文獻打造出了Hadoop。

圖1-1 Hadoop logo
Hadoop的特點在于用戶可以在不了解分布式底層細節的情況下,開發分布式程序,充分利用集群的威力進行高速運算和存儲。
Hadoop實現了一個分布式文件系統(Hadoop Distributed File System,簡稱HDFS)。HDFS有高容錯性的特點,用來部署在低廉(low-cost)的硬件上,而且它提供高吞吐(high throughput)量來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了可移植操作系統接口的要求,可以以流的形式訪問文件系統中的數據。
Hadoop框架最核心的設計就是HDFS和MapReduce。HDFS為海量的數據提供了存儲,而MapReduce為海量的數據提供了計算。
推薦閱讀
- 劍指JVM:虛擬機實踐與性能調優
- React Native Cookbook
- Mastering Spring MVC 4
- Java Web及其框架技術
- 人臉識別原理及算法:動態人臉識別系統研究
- Troubleshooting Citrix XenApp?
- Java程序設計與項目案例教程
- Moodle 3 Administration(Third Edition)
- PowerDesigner 16 從入門到精通
- Mastering Embedded Linux Programming
- Python編程基礎教程
- Getting Started with JUCE
- 循序漸進Vue.js 3前端開發實戰
- 程序員超強大腦
- 面向對象程序設計及C++實驗指導(第3版)