- 典型Hadoop云計算
- 趙書蘭編著
- 2108字
- 2018-12-27 06:30:11
前言
什么是云計算?云計算是一種基于互聯網的超級計算模式,在遠程數據中心,幾萬臺甚至幾千萬臺計算機和服務器連接成一片。云計算甚至可以讓人們體驗每秒超過10萬億次的運算能力,如此強大的運算能力幾乎無所不能。用戶通過計算機、筆記本電腦、手機等方式接入數據中心,按各自的需求進行存儲和運算。
云計算是傳統計算機技術和網絡技術發展融合的產物,也是引領未來信息產業創新的關鍵戰略性技術和手段。云計算的廣泛普及與應用,也將催生信息技術的第三次生產變革浪潮,引發未來新一代信息技術變革、IT應用方式的核心變革,同時也將帶來工作方式和商業模式的根本性變革。作為21世紀IT業界乃至全社會關注的焦點和熱點,未來云計算應用可以作為一種IT基礎設施服務模式、一種信息服務的交付模式、一種基于互聯網的新型商業模式,一種像供水、輸電一樣的創建性資源服務模式,將為人類社會提供更加方便、快捷、廉價的信息服務,為人們的工作、生活提供更多便利。
云計算作為新一代的技術變革,其發展受到了各行各業的關注,無論是政府部門,還是企事業單位,他們所簽的如雪片一般的訂單昭示了云計算的巨大市場。中國把云計算提高到了戰略發展項目的高度,2010年10月,發改委、工信部聯合發文通知,加強中國云計算創新發展的總體布局,并開展了云計算服務創新發展的一系列試點示范工作。“十二五”規劃綱要中云計算也占據了引人注目的位置。有了廣闊的前景和市場,加之政策的扶持,云計算項目在中國大有遍地開花之勢。
與以往的高新技術不同,云計算不光給大型的企業和單位帶來了實惠,對于中小型企業來說,更是一種莫大的機遇。過去,中小型公司人力資源不足,IT預算吃緊,動輒數百萬元的IT設備和設備所帶來的生產力提升離他們相距甚遠,而現在,云計算為它們提供了大企業級的技術,前期成本低,升級方便。
這一新興技術的重要性毋庸置疑,不過,它尚處于起步階段,接下來會有一系列的變革。云計算甚至可以抹平企業規模所導致的優劣差距,而且極有可能讓小企業占據優勢。簡言之,目前世界上功能最強、最具創新能力的技術已不再為大型企業所獨享。事實上,每個人都已經開始不同程度地享受到這一技術了。
人們前期已經熱衷于對云計算技術概念的專注研討,而這個術語被廣泛地定義為一個“計算”的本身。關于這個主題的文獻已經被很多權威專家想象、分析描述如下。
● 一個毀滅性結構的架構。
● 一個21世紀的巨大潮流。
● 大的經濟平均主義者。
● 一個全球社會和經濟網絡。
● 一個國家工業的毀滅。
● 媒體的民主時代。
● 一個國家終結的開始。
● 一個地球村的崛起。
● 全球恐怖組織擴展的加速器。
● 權力從西方向東方轉移的加速器。
● 計算歷史上的下一次革命。
● 數字和物理世界的融合。
有專業人士預測,到2020年,全球云計算市場規模將比現在增長5倍多,從406億美元增長到2410億美元以上,中小企業對于云計算的需求會逐年上升。可以預見的是,隨著云計算日趨走向成熟,小型企業出于越來越多的技術需求會更加依賴于云計算,而其成本和復雜性也會逐漸降低。
Hadoop云是一個實現了MapReduce計算模型的開源分布式并行編程框架。MapReduce的概念來源于Google實驗室,它是一個簡化并行計算的編程模型,適用于大規模集群上的海量數據處理。
隨著2007年底該模式Java開源實現項目Apache Hadoop的出現,使得程序員可以輕松地編寫分布式并行程序,并將其運行于計算機集群上,完成海量數據的計算。近兩年,尤其是2012年,國內外采用MapReduce模型的應用也逐漸豐富起來,如像NTT KDDI和中國移動這類公司采用該模型分析用戶信息,優化網絡配置;美國供電局采用該模型來分析電網現狀;包括VISA和JP摩根在內的金融公司采用該模型來分析股票數據;包括Amazon和ebay在內的零售商和電子商務公司也開始采用該模型;甚至部分生物公司也采用該模型來進行DNA測序和分析。
經過幾年的發展,在所有的開源云計算系統里,Hadoop一直穩居第一。而本書也因此誕生。
本書共分為9章,各章主要介紹內容如下。
第1章:介紹云計算背景與Hadoop,主要包括云的基本概念、云計算的優缺點、云計算存在的問題及Hadoop的概述及使用等內容。
第2章:介紹Hadoop的安裝與配置,主要包括Hadoop的安裝、Hadoop的組件、Hadoop常用命令及Hadoop的I/O操作等內容。
第3章:介紹Hadoop云計算的MapReduce詳解,主要介紹MapReduce的總體結構、MapReduce工作原理、MapReduce基礎模板及MapReduce應用實例等內容。
第4章:介紹Hadoop云計算的ZooKeeper詳解,主要介紹ZooKeeper的基本概念、ZooKeeper的安裝、ZooKeeper的配置及ZooKeeper的典型應用等內容。
第5章:介紹Hadoop云計算的Mahout詳解,主要介紹Mahout的安裝與配置、Mahout的相關算法、Naive Bayes分類器及Mahout的應用等內容。
第6章:介紹Hadoop云計算的Avro詳解,主要介紹Avro模式、Avro數據、Avro協議等內容。
第7章:介紹Hadoop云計算的Chukwa詳解,主要介紹Chukwa的架構、Chukwa的安裝與配置、Chukwa源代碼分析及Chukwa的應用實踐等內容。
第8章:介紹Hadoop云計算的其他相關項目,主要介紹Hadoop的HBase詳解、Hadoop的Hive詳解、Hadoop的Pig詳解及Hadoop的Cassandra詳解等內容。
第9章:介紹Hadoop云計算的綜合實例,主要介紹Hadoop云計算在移動通信信令監控與查詢方面的綜合實例及Hadoop在Last.fm的應用這兩個應用實例。
本書由趙新芬編著,此外參加編寫的還有李曉東、丁偉雄、雷曉平、李婭、楊文茵、何正風、趙書梅、欒穎、劉志為、周靈、周品、張德豐、余智豪和趙書蘭。
由于作者水平有限,加之時間倉促,書中難免存在不足之處,敬請廣大讀者批評指正。
編著者
2012.8
- 人工智能超越人類
- OpenStack for Architects
- 空間機器人遙操作系統及控制
- Hadoop 2.x Administration Cookbook
- Getting Started with Oracle SOA B2B Integration:A Hands-On Tutorial
- Photoshop CS4經典380例
- ROS機器人編程與SLAM算法解析指南
- PostgreSQL 10 Administration Cookbook
- 中國戰略性新興產業研究與發展·增材制造
- Bayesian Analysis with Python
- 嵌入式GUI開發設計
- 計算機辦公應用培訓教程
- DynamoDB Applied Design Patterns
- Python語言從入門到精通
- 單片機C51應用技術