官术网_书友最值得收藏!

前言

為什么要寫這本書

伴隨著Web 2.0、云計(jì)算、物聯(lián)網(wǎng)等概念和技術(shù)的提出與快速發(fā)展,信息時(shí)代的“大數(shù)據(jù)”特征越來越明顯。大數(shù)據(jù)相關(guān)的數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術(shù)在商業(yè)、軍事、經(jīng)濟(jì)、學(xué)術(shù)等眾多領(lǐng)域也開始發(fā)揮越來越大的作用。與此同時(shí),龐大的數(shù)據(jù)規(guī)模也給傳統(tǒng)的數(shù)據(jù)挖掘工作帶來了巨大的挑戰(zhàn)。分布式計(jì)算平臺(tái)具有強(qiáng)勁的數(shù)據(jù)處理能力,因此,數(shù)據(jù)挖掘與分布式計(jì)算平臺(tái)相結(jié)合的方式正在成為行業(yè)的趨勢(shì),并不斷地顯現(xiàn)出強(qiáng)大的優(yōu)勢(shì)和潛力。以Hadoop為代表的分布式系統(tǒng),正在逐漸成為大數(shù)據(jù)挖掘系統(tǒng)的必要組成部分。結(jié)合Hadoop分布式架構(gòu)進(jìn)行數(shù)據(jù)挖掘的方式具備更高的計(jì)算效率,且計(jì)算能力的擴(kuò)展性也更好。

如何將大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘技術(shù)相結(jié)合,解決企業(yè)實(shí)際遇到的大數(shù)據(jù)相關(guān)問題,并從數(shù)據(jù)中挖掘出有價(jià)值的信息,是企業(yè)面臨的難題。因此,目前企業(yè)對(duì)大數(shù)據(jù)人才依舊有比較大的需求,并且對(duì)大數(shù)據(jù)人才的專業(yè)技能、實(shí)操能力提出了更高的要求。

在大數(shù)據(jù)領(lǐng)域中,Hadoop技術(shù)的應(yīng)用無疑很廣泛。Hadoop技術(shù)除了自身強(qiáng)大的功能之外,也可以與Mahout、Spark MLlib等技術(shù)結(jié)合使用,這樣不僅可以幫助企業(yè)對(duì)海量數(shù)據(jù)進(jìn)行基礎(chǔ)分析,還能構(gòu)建挖掘模型,從大數(shù)據(jù)中挖掘出有價(jià)值的信息。

本書提供了大數(shù)據(jù)相關(guān)技術(shù)的介紹、原理、實(shí)踐、真實(shí)業(yè)務(wù)場景應(yīng)用等內(nèi)容,能夠有效指導(dǎo)高校教師與學(xué)生理解和掌握大數(shù)據(jù)相關(guān)技術(shù)原理及技術(shù)實(shí)踐,并為數(shù)據(jù)挖掘與分布式計(jì)算平臺(tái)的結(jié)合使用打下良好的技術(shù)基礎(chǔ),同時(shí)也能夠促進(jìn)教學(xué)實(shí)踐與行業(yè)技術(shù)及應(yīng)用發(fā)展的動(dòng)態(tài)融合。

本書特色

本書采用“基礎(chǔ)篇+實(shí)戰(zhàn)篇”的編寫結(jié)構(gòu),深入淺出地介紹了大數(shù)據(jù)相關(guān)技術(shù)的原理、知識(shí)點(diǎn)及具體應(yīng)用,適合教師教學(xué)使用和零基礎(chǔ)自學(xué)者使用。

本書的基礎(chǔ)篇從大數(shù)據(jù)的概念、特點(diǎn)、應(yīng)用及大數(shù)據(jù)平臺(tái)出發(fā),較為全面地介紹了大數(shù)據(jù)相關(guān)的技術(shù)框架,包括Hadoop、HBase、Hive、Spark、Flume、Kafka等框架,內(nèi)容講解由淺入深。此外,基礎(chǔ)篇的第2~8章在講解了相關(guān)技術(shù)的知識(shí)點(diǎn)后,還通過相對(duì)獨(dú)立的場景應(yīng)用實(shí)例,幫助讀者使用大數(shù)據(jù)技術(shù)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析。通過對(duì)基礎(chǔ)篇的學(xué)習(xí),讀者可以學(xué)習(xí)大數(shù)據(jù)相關(guān)技術(shù)的原理并掌握大數(shù)據(jù)技術(shù)的相關(guān)操作,為后續(xù)數(shù)據(jù)挖掘與分布式計(jì)算平臺(tái)的結(jié)合使用打下良好的技術(shù)基礎(chǔ)。

本書的實(shí)戰(zhàn)篇介紹了多個(gè)綜合實(shí)戰(zhàn)案例,描述了企業(yè)在實(shí)際業(yè)務(wù)中遇到的真實(shí)場景問題,通過對(duì)整個(gè)案例流程進(jìn)行詳細(xì)分析,并綜合運(yùn)用大數(shù)據(jù)技術(shù)完成數(shù)據(jù)的采集、預(yù)處理、分析挖掘等操作,最終實(shí)現(xiàn)了案例的目標(biāo)。實(shí)戰(zhàn)篇的內(nèi)容對(duì)讀者有一定的實(shí)踐指導(dǎo)作用,也能夠幫助讀者提高使用大數(shù)據(jù)相關(guān)技術(shù)進(jìn)行數(shù)據(jù)挖掘的基本能力。學(xué)生或技術(shù)人員在通過實(shí)戰(zhàn)篇進(jìn)行實(shí)踐的同時(shí),也可以學(xué)習(xí)案例的分析方法,培養(yǎng)良好的案例分析能力及思考能力。

本書基礎(chǔ)篇各章都配有課后習(xí)題,可以幫助讀者鞏固大數(shù)據(jù)技術(shù)的知識(shí)點(diǎn),更加深刻地理解書中所介紹的大數(shù)據(jù)技術(shù)的基本內(nèi)容。

為了幫助讀者更好地使用本書,本書提供了配套原始數(shù)據(jù)文件、程序代碼以及PPT課件,讀者可以從泰迪云教材(https://book.tipdm.org/)免費(fèi)下載。

本書適用對(duì)象
  • 開設(shè)大數(shù)據(jù)、大數(shù)據(jù)挖掘相關(guān)課程的高校的師生。
  • 大數(shù)據(jù)技術(shù)開發(fā)人員。
  • 大數(shù)據(jù)架構(gòu)師。
  • 數(shù)據(jù)挖掘方面的技術(shù)人員或數(shù)據(jù)挖掘技術(shù)愛好者。
如何閱讀本書

本書使用基于開源Hadoop生態(tài)圈的主流技術(shù)與真實(shí)案例相結(jié)合的方式,深入淺出地介紹了Hadoop、Hive、HBase、Spark、Flume、Kafka等大數(shù)據(jù)技術(shù)的原理、操作及具體應(yīng)用。本書共11章,分兩個(gè)部分:基礎(chǔ)篇、實(shí)戰(zhàn)篇。

基礎(chǔ)篇(第1~8章):從大數(shù)據(jù)的概念、特點(diǎn)、應(yīng)用以及大數(shù)據(jù)平臺(tái)入手,主要介紹與數(shù)據(jù)挖掘相關(guān)的Hadoop生態(tài)系統(tǒng)組件技術(shù)的基礎(chǔ)知識(shí)與應(yīng)用,包括大數(shù)據(jù)基礎(chǔ)架構(gòu)Hadoop、數(shù)據(jù)倉庫Hive、分布式協(xié)調(diào)框架ZooKeeper、分布式數(shù)據(jù)庫HBase、分布式計(jì)算框架Spark、大數(shù)據(jù)采集框架Flume、消息訂閱系統(tǒng)Kafka等,并通過場景應(yīng)用案例幫助讀者掌握各大數(shù)據(jù)組件的基礎(chǔ)操作。

實(shí)戰(zhàn)篇(第9~11章):包括3個(gè)案例,分別為圖書熱度實(shí)時(shí)分析系統(tǒng)、O2O優(yōu)惠券個(gè)性化投放、消費(fèi)者人群信用智能評(píng)分。實(shí)戰(zhàn)篇主要關(guān)注實(shí)戰(zhàn)用例,通過3個(gè)綜合實(shí)戰(zhàn)案例提升讀者對(duì)大數(shù)據(jù)技術(shù)的綜合運(yùn)用能力。各章從案例的背景與目標(biāo)入手,分析案例需求,在明確案例的流程后通過大數(shù)據(jù)技術(shù)解決實(shí)際的業(yè)務(wù)問題,同時(shí)也讓讀者切身感受到大數(shù)據(jù)技術(shù)解決大數(shù)據(jù)企業(yè)應(yīng)用的魅力。

第2版更新內(nèi)容

結(jié)合近幾年Hadoop大數(shù)據(jù)技術(shù)與數(shù)據(jù)挖掘的發(fā)展情況和廣大讀者的意見反饋,本書在保留第1版特色的基礎(chǔ)上,進(jìn)行了代碼與內(nèi)容的全方位升級(jí)。在代碼方面,將教材所介紹的大數(shù)據(jù)組件的版本進(jìn)行全面升級(jí),充分考慮了大數(shù)據(jù)技術(shù)的發(fā)展情況。在內(nèi)容方面,對(duì)基礎(chǔ)篇和實(shí)戰(zhàn)篇均進(jìn)行了升級(jí)。

基礎(chǔ)篇具體升級(jí)內(nèi)容如下。

1)全面升級(jí)教材所有組件的版本,并同步更新組件知識(shí)點(diǎn)的講解及基礎(chǔ)操作。

2)刪除了原第5章和第7章。

3)新增了第4章、第7章、第8章。

4)第2~8章中新增了場景應(yīng)用實(shí)例,幫助讀者鞏固所學(xué)的知識(shí)點(diǎn),快速掌握書中所介紹的大數(shù)據(jù)技術(shù)的基礎(chǔ)操作。

5)各章增加了課后習(xí)題,可以幫助讀者鞏固所學(xué)的知識(shí)點(diǎn),更加深刻地理解書中所介紹的大數(shù)據(jù)技術(shù)的基本內(nèi)容。

實(shí)戰(zhàn)篇增加了多個(gè)綜合實(shí)戰(zhàn)案例,旨在提升讀者對(duì)大數(shù)據(jù)技術(shù)的綜合運(yùn)用能力。具體升級(jí)內(nèi)容如下。

1)刪除原第8章。

2)新增第9章、第10章和第11章。

勘誤和支持

由于作者水平有限,書中難免存在一些疏漏和不足的地方。如果你有更多的寶貴意見,歡迎在泰迪學(xué)社微信公眾號(hào)(TipDataMining)回復(fù)“圖書反饋”進(jìn)行反饋。本系列圖書的更多信息可以在泰迪云教材(https://book.tipdm.org/)查閱。

張良均
2022年4月于廣州

主站蜘蛛池模板: 象州县| 康保县| 锦州市| 昭平县| 宝坻区| 巴马| 军事| 平山县| 东港市| 曲沃县| 松原市| 丰镇市| 互助| 镇坪县| 永登县| 汉源县| 璧山县| 南昌县| 蕲春县| 集安市| 津南区| 道孚县| 神池县| 镇宁| 广昌县| SHOW| 潜江市| 台南县| 旌德县| 桃江县| 泾川县| 十堰市| 嘉义县| 宜宾县| 临泽县| 牙克石市| 东源县| 青铜峡市| 平遥县| 阜阳市| 万盛区|