- 大數(shù)據(jù)技術(shù)基礎(chǔ)
- 薛志東
- 1348字
- 2019-09-12 15:00:59
前言
FOREWORD
大數(shù)據(jù)已經(jīng)進(jìn)入我們社會生活的各個層面,學(xué)習(xí)、使用大數(shù)據(jù)成為社會各行各業(yè)的共識。掌握大數(shù)據(jù)技術(shù)成為數(shù)據(jù)科學(xué)、計算機(jī)科學(xué)與技術(shù)、軟件工程、管理科學(xué)與工程等相關(guān)領(lǐng)域大數(shù)據(jù)工作者的一種內(nèi)在要求。
我們希望本書能結(jié)合大學(xué)教學(xué)的實(shí)際情況,向?qū)W生介紹大數(shù)據(jù)技術(shù)的基礎(chǔ)知識,幫助學(xué)生了解大數(shù)據(jù)技術(shù)的概貌。主要內(nèi)容安排如下。
第1章 大數(shù)據(jù)概述。在介紹目前主流大數(shù)據(jù)技術(shù)前,本章概括介紹了諸如分布式、虛擬化與云計算、數(shù)據(jù)庫與數(shù)據(jù)倉庫等與大數(shù)據(jù)技術(shù)密切相關(guān)的概念。
第2章 大數(shù)據(jù)軟件基礎(chǔ)。考慮到大學(xué)授課的特點(diǎn),本章把在前序課程中可能忽視的Linux基礎(chǔ)操作、Java基礎(chǔ)和SQL語法等與后續(xù)大數(shù)據(jù)實(shí)踐相關(guān)的重點(diǎn)知識作為大數(shù)據(jù)軟件技術(shù)基礎(chǔ)進(jìn)行了補(bǔ)充,避免因?yàn)閷W(xué)生基礎(chǔ)知識的不足而導(dǎo)致學(xué)習(xí)困難等方面的問題。此外,本章還介紹了如何安裝Linux集群,為后續(xù)章節(jié)的內(nèi)容做鋪墊。
第3章 大數(shù)據(jù)存儲技術(shù)。重點(diǎn)介紹Hadoop分布式文件系統(tǒng)HDFS以及常見的NoSQL數(shù)據(jù)庫,并對Hadoop和HBase的安裝配置及API開發(fā)進(jìn)行了介紹。
第4章 MapReduce分布式編程。重點(diǎn)介紹Hadoop的MapReduce編程及其基本原理。
第5章 數(shù)據(jù)采集與預(yù)處理。重點(diǎn)介紹大數(shù)據(jù)采集與傳輸數(shù)據(jù)的工具,包括Flume、Sqoop和Kafka。
第6章 數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理。本章首先討論被業(yè)界廣泛接受的數(shù)據(jù)倉庫的概念和定義,研究應(yīng)用于數(shù)據(jù)倉庫和OLAP的多維數(shù)據(jù)模型——數(shù)據(jù)立方體,然后詳細(xì)介紹基于Hadoop平臺的數(shù)據(jù)倉庫工具與相應(yīng)的聯(lián)機(jī)分析技術(shù),包括Hive、Kylin及Superset等。
第7章 大數(shù)據(jù)分析與挖掘技術(shù)。本章對數(shù)據(jù)挖掘與分析的基本原理進(jìn)行討論,并對Hadoop家族中的重要成員——Mahout進(jìn)行介紹,描述其在具體應(yīng)用中的使用方法。
第8章 Spark分布式內(nèi)存計算框架。本章立足于實(shí)戰(zhàn),重點(diǎn)介紹Spark的編程模型和RDD 統(tǒng)一抽象模型、Spark的工作和調(diào)度機(jī)制以及以 Spark 為核心衍生的生態(tài)系統(tǒng)——SparkSQL、流式計算、機(jī)器學(xué)習(xí)、圖計算等,最后對Zeppelin數(shù)據(jù)分析工具進(jìn)行簡要介紹。
第9章 數(shù)據(jù)可視化技術(shù)。本章首先簡單介紹數(shù)據(jù)可視化的發(fā)展歷史、可視化工具分類,然后重點(diǎn)結(jié)合ECharts介紹Web可視化組件生成方法,并給出JavaWeb開發(fā)與相關(guān)大數(shù)據(jù)組件的數(shù)據(jù)集成,以展現(xiàn)數(shù)據(jù)可視化結(jié)果。
第10章 大數(shù)據(jù)安全。本章首先介紹大數(shù)據(jù)安全的挑戰(zhàn)與對策,然后結(jié)合企業(yè)界成熟的華為公司大數(shù)據(jù)技術(shù)安全解決方案,對大數(shù)據(jù)基礎(chǔ)設(shè)施安全、安全管理技術(shù)、安全分析、隱私保護(hù)等內(nèi)容進(jìn)行了介紹。
本書的編寫得益于華中科技大學(xué)軟件學(xué)院數(shù)據(jù)科學(xué)中心師生的共同努力,其中薛志東負(fù)責(zé)本書的策劃并主要編寫了第2章、第3章、第4章、第5章和第9章;陳長清主要編寫了第1章;呂澤華主要編寫了第6章、第7章和第8章;黃浩主要編寫了第10章。此外,姚益陽、杜海朋、董英豪、盧璟祥、張雙雙、鄒小威、張學(xué)清、郭映中、汪元也參加了本書部分內(nèi)容的編寫工作。曾輝、余晨晨、奉俊豐參加了本書部分代碼的整理工作。
在本書的編寫過程中,編者參考、引用了華為技術(shù)有限公司ICT學(xué)院提供的資料、相關(guān)技術(shù)的官方文檔和大量互聯(lián)網(wǎng)資源,在此向有關(guān)單位、作者表示感謝,并盡量在參考文獻(xiàn)部分一一列出,若有遺漏和不妥之處,敬請相關(guān)作者指正。
感謝華為技術(shù)有限公司劉潔、張志峰,華中科技大學(xué)軟件學(xué)院陳傳波教授、肖來元教授、沈剛教授,以及陳維亞博士、區(qū)士頎博士、石強(qiáng)博士對圖書編寫工作予以的支持與幫助。
由于時間倉促,編者水平有限,書中難免存在不足之處,敬請讀者批評指正。
編者
2018年5月于華中科大軟件學(xué)院
- 大數(shù)據(jù)導(dǎo)論:思維、技術(shù)與應(yīng)用
- Python Artificial Intelligence Projects for Beginners
- Dreamweaver CS3網(wǎng)頁設(shè)計50例
- HBase Design Patterns
- 機(jī)器自動化控制器原理與應(yīng)用
- Supervised Machine Learning with Python
- 網(wǎng)絡(luò)綜合布線設(shè)計與施工技術(shù)
- The Python Workshop
- RedHat Linux用戶基礎(chǔ)
- SAP Business Intelligence Quick Start Guide
- Windows安全指南
- JSP通用范例開發(fā)金典
- Arduino創(chuàng)意機(jī)器人入門:基于Mind+
- 微計算機(jī)原理及應(yīng)用
- 百度智能小程序:AI賦能新機(jī)遇