- 大數據架構和算法實現之路:電商系統的技術實戰
- 黃申
- 2530字
- 2019-01-05 01:21:33
前言
為什么要寫這本書
首先要感謝機械工業出版社華章公司的編輯們,在他們的大力支持下,我于2016年出版了《大數據架構商業之路:從業務需求到技術方案》一書,并獲得了良好的銷售額和口碑。不少讀者主動和我聯系,表示從書中學習到了如何使用大數據的知識,來制定合理的技術方案。能夠讓讀者從書中獲益,我也感到非常欣慰。與此同時,也有部分讀者表示對于技術的細節很感興趣,對此書未能包含實現部分深感遺憾。對此,我一直在猶豫是否需要重新寫一版,包含更多的實戰內容。因為《大數據架構商業之路:從業務需求到技術方案》一書的定位是最大程度地彌補業務需求和技術方案之間的空白,針對的讀者主要是互聯網公司的技術管理人員、產品經理、初級的架構師等。如果直接加入過多的技術細節,可能會導致該書的定位不清,讓讀者難以獲得最佳的閱讀體驗。
與本書的策劃編輯楊老師再三討論之后,我決定不在原書中加入更多的實現部分,而是重新撰寫一本兄弟篇。這本全新的書,仍然會沿用前作的故事背景和應用場景,不過讀者對象改為資深的程序員、算法工程師、數據科學家和系統架構師。因此,新作將大幅縮減基礎知識的詳細介紹以及業務需求的逐步分析,而是直接進入實戰的主題,包括系統架構、算法設計,甚至是重要的代碼部分。當然,我也不希望該書全由代碼堆砌而成,因此主要針對核心代碼進行了講解。全部的實例代碼會以其他形式來提供。
雖然定位有所不同,但是我仍然希望保持前作深入淺出的特點。
? 易讀易懂。黃小明和楊大寶的創業故事在稍作修改的基礎之上得以保留,繼續使用生動的案例和形象的比喻來解讀難點,降低理解的門檻。
? 可實踐性強。本書選取了電子商務的平臺,通過分享大量實踐才能積累的寶貴經驗和重點代碼,最大程度地彌補業務需求和技術方案之間的空白。與此同時,針對頻繁升級的開源軟件,我也采用了2016年年底到2017年年初最新的版本。因此,部分代碼甚至可作為中小公司創業起步的參考模板。這有利于技術人員針對不同的業務需求,規劃更為合理的技術方案。
最后,我們衷心希望本書成為相關領域技術專家的良師益友,大家在閱讀之后,對電商大數據的實踐能有更加深入的理解,并對自己所從事的項目有所裨益。
讀者對象
根據本書撰寫的起心動念,我們覺得其內容適合如下的讀者。
? 大數據相關領域的程序開發者和技術骨干。從本書中,他們可以看到常見的互聯網公司從創業初期到中期,應該怎樣設計數據平臺、如何解決技術上的難題,才能最終滿足業務需求。
? 中小互聯網創業公司的數據科學家或者算法工程師。算法是數據平臺的一個關鍵因素。最近幾年,人工智能、機器學習乃至深度學習都是學術界和工業界的一大熱點,而數據科學家也成為受人追捧的職業。合理地運用智能算法將從很大程度上節約重復勞動的成本,提高效率和轉化率,最終增加商業的價值。
? 架構工程師。架構是數據平臺的另一個關鍵因素,很多剛剛從院校畢業、工作沒多久的朋友,學了一身的本領,對新技術也很有熱情,可惜沒有太多實踐的機會。本書中的案例,濃縮了不少業界實踐的經驗和心得,如能融會貫通,對他們的工作將有很大幫助。同時,覆蓋面較廣的技術課題概述,也為他們繼續深入研究提供了方向和可能。
總之,本書適合鉆研實現細節的程序員、工程師和算法專家。和前作的側重點有所不同,本書并不適合作為入門教程使用。因此建議沒有相關基礎知識的讀者,讀完前作之后再來閱讀此書。
如何閱讀本書
本書介紹了一些主流技術在商業項目中的應用,包括機器學習中的分類、聚類和線性回歸,搜索引擎,推薦系統,用戶行為跟蹤,架構設計的基本理念及常用的消息和緩存機制。在這個過程中,我們有機會實踐R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系統。如前所述,本書最大的特色就是,從商業需求出發演變到合理的技術方案和實現,因此根據不同的應用場景、不同的數據集合、不同的進階難度,我們為讀者提供了反復溫習和加深印象的機會。
勘誤和支持
眾所周知,大數據的發展實在是太快了。可能就在你閱讀這段文字的同時,又有一項新的技術誕生了,N項技術升級了,M項技術被淘汰了。再加之筆者的水平有限,書中難免會出現一些不夠準確或遺漏的地方,懇請讀者通過如下的渠道積極建議和斧正,我們很期待能夠收到你們的真摯反饋。
QQ:36638279
微信:18616692855
郵箱:s_huang790228@hotmail.com
LinkedIn:https://cn.linkedin.com/in/shuang790228
致謝
首先要感謝上海交通大學和俞勇教授,你們給予我不斷學習的機會,帶領我進入了大數據的世界。同時,感謝阿里云的高級總監薛貴榮,你的指導讓我樹立了良好的科研態度。
還要感謝微軟亞洲研究院、eBay中國研發中心、沃爾瑪1號店、大潤發飛牛網和IBM中國研發中心,在這些公司十多年的實戰經驗讓我收獲頗豐,也為本書的鑄就打下了堅實的基礎。
感謝曾經的微軟戰友陳正、孫建濤、Ling Bao、曾華軍、張本宇、沈抖、劉寧、嚴峻、曹云波、王瓊華、康亞濱、胡健、季蕾等,eBay的戰友逄偉、王強、王驍、沈丹、Yongzheng Zhang、Catherine Baudin、Alvaro Bolivar、Xiaodi Zhang、吳曉元、周洋、胡文彥、宋榮、劉文、Lily Yu等,沃爾瑪1號店的戰友韓軍、王欣磊、胡茂華、付艷超、張旭強、黃哲鏗、沙燕霖、郭占星、聶巍、邵漢成、張珺、胡毅、邱仔松、孫靈飛、凌昱、王善良、廖川、楊平、余遷、周航、吳敏、李峰,熊健等,大潤發飛牛網的戰友王俊杰、陳俞安、蔡伯璟、陳慧文、夏吉吉、文燕軍、楊立生、張飛、代偉、陳靜、趙瑜、李航等,IBM的戰友李偉、謝欣、周健、馬堅、劉鈞、唐顯莉等。要感謝的同仁太多,如有遺漏敬請諒解,很懷念和你們并肩作戰的日子,那段時間讓我學習到了很多。
感謝機械工業出版社華章公司的編輯楊繡國(Lisa)老師,感謝你的魄力和遠見,在最近的3個月中始終支持我的寫作,你的鼓勵和幫助引導我順利完成了全部書稿。也要感謝凌云為我引薦了如此優秀的出版社和編輯。
衷心感謝源碼資本合伙人、前金山軟件CEO、前微軟亞太研發集團CTO張宏江先生,非常榮幸他能在百忙之中抽空為本書作序。也衷心感謝Apache Kylin聯合創建者及CEO韓卿先生,餓了么CTO張雪峰先生、 CloudBrain的創始人張本宇先生為本書撰寫推薦語。
還要感謝我和太太雙方的父母,感謝你們對我寫書的理解和支持。
最后我一定要謝謝我的太太Stephanie和寶貝兒子Polaris,為了此書我周末陪伴你們的時間更少了。你們不但沒有怨言,而且時時刻刻為我灌輸著信心和力量,感謝你們!
謹以此書,獻給我最親愛的家人,以及眾多熱愛大數據的朋友們。
黃申
美國,硅谷,2017年3月