- 數據科學實戰指南
- TalkingData
- 2260字
- 2019-06-19 15:56:19
前言
大約在2015年,TalkingData的數據科學部翻譯了博思艾倫咨詢公司(Booz Allen Hamilton)的The Field Guide to Data Science作為內部參考資料,該資料立刻引發了全公司員工的關注,甚至有各行各業的客戶前來詢問是否有多余紙質資料可以送給他們學習。一時間,洛陽紙貴。
這份資料也在 TalkingData 內部掀起了一股關于數據科學的討論熱潮。對于什么是數據科學、什么是數據科學家、什么是數據科學項目等關鍵問題,TalkingData的內部知識管理系統Furion上出現了一篇又一篇的討論熱帖。
隨著智能移動設備、可穿戴設備的用戶量不斷增加,以及工業大數據呈指數級增長,數據行業迎來了越來越多的挑戰,大數據、云計算、人工智能、區塊鏈、機器學習等熱詞也不斷出現。
數據科學作為一個早已存在于大數據領域但最近幾年才被關注的概念,與數據分析學(datalogy)、數據智能(data intelligence)有著密不可分的關系。數據科學就像大數據、人工智能的“靈魂”,看不見、摸不著,卻常常在各種場合被提及。每個人似乎都在討論數據科學,但對于這個概念的理解卻各不相同。
例如,鄂維南院士認為,數據科學主要包括兩個方面:用數據的方法研究科學,以及用科學的方法研究數據。前者要用到生物信息學、天體信息學、數字地球等領域的知識,后者則涉及統計學、機器學習、數據挖掘、數據庫等領域的內容。這些學科都是數據科學的重要組成部分,只有把它們有機地整合在一起,才能看清數據科學的全貌。
另一些學者認為,數據科學是一個包含多學科知識的領域,專注于從大量原始數據和結構化數據中找到切實可行的解決方案。數據科學專家將借助包括計算機科學、預測分析、統計學和機器學習等不同領域的知識,通過對海量數據集進行解析,努力為尚未被意識到的問題提供解決方案。數據科學家的主要目標是找出潛在的問題和解決之道,而不必找到具體的答案。
作為一個新興的學科,數據科學還很“年輕”,其邊界和具體研究內容還難以用一個公認的定義來描述。但是在數據行業中,數據科學已經成為數據業務的“靈魂”,是實現數據價值的關鍵。通過對實際業務的探索,業界甚至已經有了專門的數據科學團隊、數據科學流程規范和數據科學工具,這個進度遠遠領先于數據科學的學術研究。
TalkingData認為,數據科學是用來探索數據價值的,也是挖掘數據價值的核心手段。不同于其他業務,數據的價值不是一下子就能確定的,數據價值的挖掘依賴于不斷假設、分析、驗證、校準,是一個反復迭代的過程,數據科學的生命周期如圖 1所示。
這個過程不僅要遵循科學的步驟,也要使用科學的工具,這樣才能保證結果的信效度和普適性。數據科學的實現需要借助一個符合數據科學流程的技術平臺,平臺上的工具也得是專業的,這樣才能找到數據最終的價值。常見的數據科學能力有數據科學探索、可交互的視覺化探索等,常見的數據科學工具有數據準備組件、可擴展的數據模型等。

圖1 數據科學的生命周期
來源:domino,翻譯:Talking Data University
可能并不是所有的企業都在經歷需要透徹了解數據科學的階段,也就是說,數據科學并不是萬能靈藥,因為企業處于數字化發展的不同階段,所面臨的數據問題是不一樣的,如圖2所示。在企業數字化發展的初期,數據能力需求集中在整理、吸收、歸納、分析等方面,較小的數據團隊和簡單的數據分析方法即可滿足需求。但當企業積累了大量、多源、多維度的數據,并且需要挖掘數據的價值,形成新的數據產品時,數據科學就會變成企業的核心競爭力之一。

圖2 企業數字化發展的不同階段
數據科學項目的實施需要技術支持,需要有明確的組織結構,更需要由特定的人來執行。一個典型的數據團隊一般由數據工程師、數據科學家、數據分析師、數據產品經理組成,如圖3所示。

圖3 典型數據團隊的組成
由于不同數據團隊所面對的工作對象不一樣,項目生命周期不一樣,溝通交流的范式和工作的產出也都很特別,所以數據團隊需要專門的工作流程、專業的協作工具,當然最重要的是要遵循專門的考核標準。基于以上幾點,本書試圖從實踐經驗的角度出發,從概念定義開始,將數據科學領域所涉及的人才、項目流程、工具、產出,以及關鍵注意事項娓娓道來,并輔以案例詳述,力圖幫助那些從事數據科學工作的人,以及即將在企業中引入數據科學的決策者梳理思路、整合資源,帶領他們通往業務成功的彼岸。
本書共分為三部分:第一部分將介紹數據科學工作開始前的必要準備事項,涉及數據安全與數據治理等;第二部分將從人才、數據、工具三個維度指導決策者啟動數據科學項目;第三部分將分享真實的數據科學實戰案例,為數據行業從業者提供實踐思路。
本書在寫作過程中,匯聚了 TalkingData 的數據科學從業者們在實際工作中積累的行業經驗,因此在這里要感謝為本書提供專業知識和寶貴意見的專家們:感謝負責數據科學概述部分的專家孔元明和戴民,感謝數據安全領域的專家呂博卿,感謝數據治理領域的專家李想,感謝數據科學工具領域的專家張學波,感謝數據可視化領域的專家彭嘉,感謝精通數據科學流程的專家潘松柏、曾曉春,感謝精通數據科學實戰項目的專家李堃、王麗燕,感謝對全書進行審校的楊慧、謝若涵。
同時,本書在寫作過程中也得到眾多業內專家的指導。希望本書能夠成為數據科學從業者及對數據科學感興趣的人的知識手冊,能夠隨時幫助來自企業、科研界的人們統一思想,形成共識。
愿數據科學與所有人同在!
讀者服務
輕松注冊成為博文視點社區用戶(www.broadview.com.cn),掃碼直達本書頁面。
下載資源:本書提供配套插圖文件,均可在 下載資源 處下載。
提交勘誤:您對書中內容的修改意見可在 提交勘誤 處提交,若被采納,將獲贈博文視點社區積分(在您購買電子書時,積分可用來抵扣相應金額)。
交流互動:在頁面下方 讀者評論 處留下您的疑問或觀點,與我們和其他讀者一同學習交流。
頁面入口:http://www.broadview.com.cn/35965

- Hands-On Data Structures and Algorithms with Rust
- 復雜性思考:復雜性科學和計算模型(原書第2版)
- 計算機信息技術基礎實驗與習題
- Voice Application Development for Android
- 數據庫系統原理及應用教程(第4版)
- Learn Unity ML-Agents:Fundamentals of Unity Machine Learning
- 一個64位操作系統的設計與實現
- Proxmox VE超融合集群實踐真傳
- gnuplot Cookbook
- SAS金融數據挖掘與建模:系統方法與案例解析
- Spark分布式處理實戰
- 大數據分析:R基礎及應用
- 數據產品經理寶典:大數據時代如何創造卓越產品
- 全球智庫評價報告(2015)
- Foxtable數據庫應用開發寶典