官术网_书友最值得收藏!

前言

FOREWORD

大數(shù)據(jù)已經(jīng)進(jìn)入我們社會生活的各個層面,學(xué)習(xí)、使用大數(shù)據(jù)成為社會各行各業(yè)的共識。掌握大數(shù)據(jù)技術(shù)成為數(shù)據(jù)科學(xué)、計算機(jī)科學(xué)與技術(shù)、軟件工程、管理科學(xué)與工程等相關(guān)領(lǐng)域大數(shù)據(jù)工作者的一種內(nèi)在要求。

我們希望本書能結(jié)合大學(xué)教學(xué)的實(shí)際情況,向?qū)W生介紹大數(shù)據(jù)技術(shù)的基礎(chǔ)知識,幫助學(xué)生了解大數(shù)據(jù)技術(shù)的概貌。主要內(nèi)容安排如下。

第1章 大數(shù)據(jù)概述。在介紹目前主流大數(shù)據(jù)技術(shù)前,本章概括介紹了諸如分布式、虛擬化與云計算、數(shù)據(jù)庫與數(shù)據(jù)倉庫等與大數(shù)據(jù)技術(shù)密切相關(guān)的概念。

第2章 大數(shù)據(jù)軟件基礎(chǔ)。考慮到大學(xué)授課的特點(diǎn),本章把在前序課程中可能忽視的Linux基礎(chǔ)操作、Java基礎(chǔ)和SQL語法等與后續(xù)大數(shù)據(jù)實(shí)踐相關(guān)的重點(diǎn)知識作為大數(shù)據(jù)軟件技術(shù)基礎(chǔ)進(jìn)行了補(bǔ)充,避免因?yàn)閷W(xué)生基礎(chǔ)知識的不足而導(dǎo)致學(xué)習(xí)困難等方面的問題。此外,本章還介紹了如何安裝Linux集群,為后續(xù)章節(jié)的內(nèi)容做鋪墊。

第3章 大數(shù)據(jù)存儲技術(shù)。重點(diǎn)介紹Hadoop分布式文件系統(tǒng)HDFS以及常見的NoSQL數(shù)據(jù)庫,并對Hadoop和HBase的安裝配置及API開發(fā)進(jìn)行了介紹。

第4章 MapReduce分布式編程。重點(diǎn)介紹Hadoop的MapReduce編程及其基本原理。

第5章 數(shù)據(jù)采集與預(yù)處理。重點(diǎn)介紹大數(shù)據(jù)采集與傳輸數(shù)據(jù)的工具,包括Flume、Sqoop和Kafka。

第6章 數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理。本章首先討論被業(yè)界廣泛接受的數(shù)據(jù)倉庫的概念和定義,研究應(yīng)用于數(shù)據(jù)倉庫和OLAP的多維數(shù)據(jù)模型——數(shù)據(jù)立方體,然后詳細(xì)介紹基于Hadoop平臺的數(shù)據(jù)倉庫工具與相應(yīng)的聯(lián)機(jī)分析技術(shù),包括Hive、Kylin及Superset等。

第7章 大數(shù)據(jù)分析與挖掘技術(shù)。本章對數(shù)據(jù)挖掘與分析的基本原理進(jìn)行討論,并對Hadoop家族中的重要成員——Mahout進(jìn)行介紹,描述其在具體應(yīng)用中的使用方法。

第8章 Spark分布式內(nèi)存計算框架。本章立足于實(shí)戰(zhàn),重點(diǎn)介紹Spark的編程模型和RDD 統(tǒng)一抽象模型、Spark的工作和調(diào)度機(jī)制以及以 Spark 為核心衍生的生態(tài)系統(tǒng)——SparkSQL、流式計算、機(jī)器學(xué)習(xí)、圖計算等,最后對Zeppelin數(shù)據(jù)分析工具進(jìn)行簡要介紹。

第9章 數(shù)據(jù)可視化技術(shù)。本章首先簡單介紹數(shù)據(jù)可視化的發(fā)展歷史、可視化工具分類,然后重點(diǎn)結(jié)合ECharts介紹Web可視化組件生成方法,并給出JavaWeb開發(fā)與相關(guān)大數(shù)據(jù)組件的數(shù)據(jù)集成,以展現(xiàn)數(shù)據(jù)可視化結(jié)果。

第10章 大數(shù)據(jù)安全。本章首先介紹大數(shù)據(jù)安全的挑戰(zhàn)與對策,然后結(jié)合企業(yè)界成熟的華為公司大數(shù)據(jù)技術(shù)安全解決方案,對大數(shù)據(jù)基礎(chǔ)設(shè)施安全、安全管理技術(shù)、安全分析、隱私保護(hù)等內(nèi)容進(jìn)行了介紹。

本書的編寫得益于華中科技大學(xué)軟件學(xué)院數(shù)據(jù)科學(xué)中心師生的共同努力,其中薛志東負(fù)責(zé)本書的策劃并主要編寫了第2章、第3章、第4章、第5章和第9章;陳長清主要編寫了第1章;呂澤華主要編寫了第6章、第7章和第8章;黃浩主要編寫了第10章。此外,姚益陽、杜海朋、董英豪、盧璟祥、張雙雙、鄒小威、張學(xué)清、郭映中、汪元也參加了本書部分內(nèi)容的編寫工作。曾輝、余晨晨、奉俊豐參加了本書部分代碼的整理工作。

在本書的編寫過程中,編者參考、引用了華為技術(shù)有限公司ICT學(xué)院提供的資料、相關(guān)技術(shù)的官方文檔和大量互聯(lián)網(wǎng)資源,在此向有關(guān)單位、作者表示感謝,并盡量在參考文獻(xiàn)部分一一列出,若有遺漏和不妥之處,敬請相關(guān)作者指正。

感謝華為技術(shù)有限公司劉潔、張志峰,華中科技大學(xué)軟件學(xué)院陳傳波教授、肖來元教授、沈剛教授,以及陳維亞博士、區(qū)士頎博士、石強(qiáng)博士對圖書編寫工作予以的支持與幫助。

由于時間倉促,編者水平有限,書中難免存在不足之處,敬請讀者批評指正。

編者

2018年5月于華中科大軟件學(xué)院

主站蜘蛛池模板: 博野县| 滦平县| 东海县| 颍上县| 崇义县| 桂阳县| 监利县| 攀枝花市| 射阳县| 孟村| 彩票| 松滋市| 河池市| 根河市| 昭平县| 克东县| 繁峙县| 贺州市| 文化| 青川县| 旺苍县| 聂拉木县| 武定县| 濉溪县| 嘉禾县| 屏山县| 清镇市| 文成县| 怀来县| 新竹县| 巴东县| 清镇市| 淮阳县| 建始县| 马山县| 益阳市| 张家界市| 宜春市| 灵台县| 沈阳市| 石首市|