- 數據科學工程實踐:用戶行為分析與建模、A/B實驗、SQLFlow
- 謝梁 繆瑩瑩 高梓堯 王子玲等
- 2440字
- 2021-06-24 11:29:37
前言
為什么要寫這本書
2011年,《哈佛商業評論》將數據科學稱作“21世紀最吸引人的行業”,隨后,數據科學這個概念開始從互聯網漫延到各行各業。但是人們對這個概念的內涵和外延并無統一的認知,同時,數據科學也不像軟件工程、市場營銷等方向有較為明確的教育體系作為支撐,開設“數據科學”學科和課程的學校都是2011年之后才開始探索的,并且大多沒有一個適用于工業應用的課程體系。從業人員普遍反映需要一個系統的框架來搭建自己的技術棧和知識體系,從而提升專業化的能力。因此,市場上迫切需要一本覆蓋面廣、應用性強、深入淺出的數據科學手冊。
本書的作者是國內數據科學一線的從業者,創作目的主要有以下三個。
1)提供一個以商業場景為導向的實用量化方法論。數據科學是為商業服務的,最重要的能力是收斂開放的商業問題,并有針對性地選擇適當的量化框架進行后驗數據分析。這是一個相輔相成的過程,收斂的過程既依賴對業務的深刻理解,又需要充分理解各種分析框架的假設和抽象原理。
2)提供一個入門的臺階,供讀者按圖索驥、深入研究。數據科學領域知識面廣,又有一定的深度,需要長期的學習和經驗的積累。一本書很難涵蓋數據科學的所有知識點,但是本書可以點明關鍵節點,起到引導作用,幫助讀者進行后續的進階學習。
3)展示數據科學所需的專業能力和門檻,為讀者在求職過程中找準定位、為人事部門進行職能設計提供范例。現在數據科學領域的就業和招聘十分熱門,但是能說清數據科學專家到底需要什么樣的技能、需要達到什么樣的程度,以及這個行業有什么典型成功案例的人卻非常少。
讀者對象
本書適合以下讀者:
- 初入職場的數據分析師,用于升級個人專業分析技能;
- 從業多年的數據科學管理者,用于梳理、整合知識體系,提升團隊能力;
- 數據科學、商業分析等專業的師生,用于延展閱讀;
- 數據科學行業的人力專家和獵頭,用于標定潛在候選人能力。
本書特色
相比于市面上其他數據科學相關圖書,本書有以下特色。
1)將技術與商業場景緊密結合,強調開放性商業問題在量化分析上的收斂。市場上不乏純技術類的數據科學圖書和各種機器學習建模、統計計算的圖書,但是這些書都跳過了對開放式商業問題的思考,直接針對已經非常明確的建模本身進行介紹。本書則將重心放在案例分析的全流程上,既講解量化模型的理論,又解釋商業到數理模型的映射過程,還強調了對模型結果的解讀和應用,實用性非常強。
2)這是國內第一本系統介紹統計實驗在多種復雜商業場景下具體應用的書。統計實驗相關的圖書通常分為三類:第一類側重理論研究,對于已經工作的讀者來說實踐意義不大,且學習難度高;第二類是將生物醫學領域的理論和案例相結合,這類書的應用場景和背景與互聯網行業相差較大,不容易做到舉一反三;第三類是少部分互聯網領域統計實驗的書,這類書多是外文,知識較新,閱讀門檻較高,通常針對互聯網廣告和搜索領域,在不理解理論背景的情況下也難以遷移到其他場景。
3)本書應用場景覆蓋面廣,強調實用,可操作性強,將方法論與配套案例的背景、代碼、解讀等模塊結合在一起,讓讀者學習后即可運用在實踐中。
如何閱讀本書
這是一本將數據科學三要素—商業理解、量化模型、數據技術全面打通的實戰性著作,是來自騰訊、滴滴、快手等一線互聯網企業的數據科學家、數據分析師和算法工程師的經驗總結,得到了SQLFlow創始人以及騰訊、網易、快手、貝殼找房、谷歌等企業的專家一致好評和推薦。
全書三個部分,內容相對獨立,既能幫助初學者建立知識體系,又能幫助從業者解決商業中的實際問題,還能幫助有經驗的專家快速掌握數據科學的最新技術和發展動向。內容圍繞非實驗環境下的觀測數據的分析、實驗的設計和分析、自助式數據科學平臺3大主題展開,涉及統計學、經濟學、機器學習、實驗科學等多個領域,包含大量常用的數據科學方法、簡潔的代碼實現和經典的實戰案例。
第一部分(第1~6章)觀測數據的分析技術
講解了非實驗環境下不同觀測數據分析場景所對應的分析框架、原理及實際操作,包括消費者選擇偏好分析、消費者在時間維度上的行為分析、基于機器學習的用戶生命周期價值預測、基于可解釋模型技術的商業場景挖掘、基于矩陣分解技術的用戶行為規律發現與挖掘,以及在不能進行實驗分析時如何更科學地進行全量評估等內容。
第二部分(第7~9章)實驗設計和分析技術
從A/B實驗的基本原理出發,深入淺出地介紹了各種商業場景下進行實驗設計需要參考的原則和運用的方法,尤其是在有樣本量約束條件下提升實驗效能的方法及商業場景限制導致的非傳統實驗設計。
第三部分(第10~12章)自助式數據科學平臺SQLFlow
針對性地講解了開源的工程化的自助式數據科學平臺SQLFlow,并通過系統配置、黑盒模型的解讀器應用、聚類分析場景等案例幫助讀者快速了解這一面向未來的數據科學技術。
勘誤和支持
除封面署名外,參與本書編寫工作的還有:周銀河、丁芬、蘇濤、王禹、吳君涵、楊驍捷、劉沖、王玉璽、劉未名、楊凱迪、李依諾、陳祥、朱文靜。由于作者的水平有限,編寫時間倉促,書中難免會出現一些錯誤或者不準確的地方,懇請讀者批評指正。為此,我們特意創建了一個GitHub倉庫(https://github.com/xieliaing/Data_Science_Industrial_Practice)。讀者可以將發現的代碼Bug、文字問題以及疑惑,在Issue中提出,我們會將修改后的內容及解答通過Pull Request合并進主干。書中的全部源文件除可以從華章網站下載外,還可以從這個GitHub倉庫下載,期待能夠得到你們的真摯反饋。
致謝
首先要感謝C. F. Jeff Wu、Williaw S. Cleveland、LinkedIn的DJ Patil及Facebook的Jeff Hammerbacher等先驅,他們成功地開創了數據科學這一個行業,影響和激勵了無數人投身其中。
感謝快手科技副總裁、數據分析部負責人宋世君把數據科學的理念引入國內,實現了從0到1的跨越。感謝我原來統計科學團隊的同事們,他們是國內數據科學的開拓者,通過實踐讓數據科學的理念在國內萌芽發展、完善進步并得到認可。
感謝發起并維護SQLFlow開源社區的王益博士、劉勇峰老師及其開發團隊。
感謝機械工業出版社華章公司的楊福川老師和韓蕊老師,在這一年多的時間里始終支持我們寫作,保障了本書順利完成。
謹以此書獻給我最親愛的家人以及眾多熱愛并投身數據科學的朋友們!
謝梁
2021年2月8日
- 數據庫應用實戰
- Word 2010中文版完全自學手冊
- Modern Programming: Object Oriented Programming and Best Practices
- 企業大數據系統構建實戰:技術、架構、實施與應用
- 數據化網站運營深度剖析
- Neural Network Programming with TensorFlow
- 大話Oracle Grid:云時代的RAC
- Hadoop 3.x大數據開發實戰
- 數據中心數字孿生應用實踐
- 科研統計思維與方法:SPSS實戰
- INSTANT Apple iBooks How-to
- 跨領域信息交換方法與技術(第二版)
- 活用數據:驅動業務的數據分析實戰
- R Machine Learning Essentials
- SQL Server 2008寶典(第2版)