- Hadoop+Spark大數據分析實戰
- 遲殿委編著
- 491字
- 2023-09-08 19:24:00
第1章
大數據與Hadoop
本章主要內容:
● 大數據概念及來源。
● 大數據處理方式介紹。
● Hadoop簡介。
● 虛擬機的安裝與配置。
● Linux的操作系統的安裝。
● SSH(Secure Shell)。
本章首先介紹大數據的基礎知識,包括大數據的相關概念和典型處理方式,然后詳細介紹Hadoop框架。Hadoop是一個由Apache基金會開發的分布式系統基礎架構。 Hadoop的作者為Doug Cutting,照片如圖1-1所示,他也是Lucene、Nutch等項目的創始人。2004年,Cutting基于Google(谷歌)發布的關于GFS(Google File System)的學術文獻打造出了Hadoop。“Hadoop”并不是一串英文單詞的首字母縮寫,更沒有任何的意義,這只是Cutting的孩子給自己的黃色毛絨小象玩具起的名字。Hadoop可以讀作:[h?du:p]。
Hadoop的特點在于,用戶可以在不了解分布式底層細節的情況下編寫分布式程序,充分利用集群的威力進行高速運算和存儲。
Hadoop實現了一個分布式文件系統(Hadoop Distributed File System,簡稱HDFS)。HDFS有高容錯性的特點,并且設計用來部署在低廉(low-cost)的硬件上,而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了可移植操作系統接口的要求,可以以流的形式訪問文件系統中的數據。
Hadoop框架最核心的設計就是HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。

圖1-1
推薦閱讀
- FuelPHP Application Development Blueprints
- TypeScript入門與實戰
- Photoshop智能手機APP UI設計之道
- C# 2012程序設計實踐教程 (清華電腦學堂)
- 零基礎學Scratch少兒編程:小學課本中的Scratch創意編程
- Learning RabbitMQ
- C語言程序設計實訓教程
- Visual Basic程序設計教程
- Ext JS 4 Web Application Development Cookbook
- Getting Started with NativeScript
- Learning Zurb Foundation
- 好好學Java:從零基礎到項目實戰
- Learning Material Design
- Essential C++(中文版)
- Mastering Embedded Linux Programming