- 數據科學實戰指南
- TalkingData
- 2359字
- 2019-06-19 15:56:20
第1篇 數據科學項目之戰壕篇
第1章 數據科學項目的概念
1.1 數據科學概述
在介紹數據科學項目之前,我們先來介紹一下數據科學。如果你還不了解數據科學,那么就通過以下內容一探究竟吧!
1.1.1 產生背景
從線下活動到線上活動,從PC互聯網到移動互聯網再到物聯網(IoT),人類社會產生的可收集數據的體量呈指數級增長。比如人們日常上網“沖浪”,就會留下許許多多的“足印”。
瀏覽的網頁
在網頁上逗留的時間
點擊的鏈接
在社交網站上發表的內容
與之進行互動的人或組織
點贊的內容
即便只采集某一天的“足印”,這些數據的體量也是非常巨大的——如果用 A4紙將這些數據以默認的正文字體和字號進行打印,然后一張張堆積起來,高度堪比從地球到月球的距離。
再來看幾組數據:2017年,全球 IDC 市場規模再創歷史新高,達到534.7億美元;據TalkingData 2018年第二季度的數據統計,中國已經擁有15.1億智能手機用戶,使用智能手表等可穿戴設備的用戶數量也已經達到千萬級,同時各種傳感器的使用數量超過了80億。智能設備無處不在,正在隨時隨地產生各種維度的數據。
數據量級不斷增長,數據維度不斷增加,數據類型日益復雜,這些變化一方面讓新的業務模式成為可能,另外一方面也讓傳統的數據處理工具捉襟見肘。人們在沉醉于大數據紅利的同時,也被大數據所淹沒——我們在思維方式、工程能力、管理手段、技術工具等方面都面臨重大挑戰,我們需要通過新的方法來解決問題,以便更好地從數據之海中獲取洞察力,指導決策。
因此,數據科學應運而生,它將深刻地改變企業的決策方式。
1.1.2 概念定義
如今許多產品或服務中都有數據科學的身影,例如廣告推薦、食品藥品安全質量檢測、電影票房預測、潛在客戶尋找等。
那么,什么是數據科學呢?
“數據科學”一詞在20世紀60年代至80年代間經常出現在計算機科學文獻中。然而,直到20世紀90年代后期,這個詞才開始時常出現在統計和數據挖掘領域。
2001年,數據科學成為獨立學科,橫跨計算機科學、統計學、數學、軟件工程等多個領域,從定義與解決實際問題出發,經過描述、發現、預測、建議四個環節,從數據中獲得洞察力,從而解決問題。
傳統領域中也有和數據科學相似的概念,例如高級分析(Advanced Analytics)、數據挖掘(Data Mining)、預測分析(Predictive Analytics)等,但是數據科學可以應對更大的數據量級和更復雜的數據類型。如今,關于數據科學的文章數不勝數,而數據科學家也被認為是“21世紀最性感的職業”。
數據科學是將數據轉化為行動的藝術,這種轉化主要通過開發數據產品來完成。數據科學產生的數據產品可以提供可執行的信息,如金融工具的買/賣策略、提高產品收益率的措施、改進產品營銷的步驟等,而無須將底層數據暴露給決策者。
數據產品能回答以下問題:應該對哪些產品進行更多的廣告宣傳來提高利潤?如何在降低成本的同時改進合規計劃?采用什么制造工藝才能實現一個更好的產品?而回答這些問題的關鍵在于,了解我們擁有的數據以及歸納這些數據中包含的信息。
數據科學鼓勵從演繹推理(基于假設)轉向歸納推理(基于模式)。通過數據科學操作得到的大量數據之間的相關性取代了因果關系和嚴格的理論模型,基于這些相關性,我們可以獲得新的洞察力。相對于傳統分析方法,這是一個根本性改變。歸納推理提供了一種形成假設并發現新的分析路徑的手段,模型不再是靜態的,它們將不斷被測試、更新和改進,直到變得更好。
為了高效探索數據中的價值,我們需要數據分析技術和數據工程的配合。數據分析是對特定的數據進行分析和洞察的行為。如果說數據科學是工具和方法的房子,那么數據分析就是房子中的特定空間。數據工程是指利用各種工具、方法或系統,高效探索和轉化數據商業價值的工程化技術。我們常說的業務數據化,其實就是業務的數據工程化,即通過對業務數據進行收集、整理、分析,實現對業務更深入的理解,并最終實現業務的持續優化。
應用數據科學的最簡單的例子是搜索引擎,它將用戶在搜索中的交互行為數據化,然后根據用戶停留時長、點擊次數等條件優化搜索結果的展示效果,提升用戶搜索體驗,吸引更多的用戶使用,進而產生更多的數據用于優化。這是一個數據閉環,能夠實現持續的業務優化。
1.1.3 數據科學也需遵循科學過程
數據科學之所以被稱為一門“科學”,是因為數據科學中也蘊涵著科學的因素,其中的任務要用科學的方法處理。
數據科學實踐過程也需要遵循科學的方法。圖1-1是以科學方法為核心的數據科學流程圖,它展示了一個典型的科學研究的演繹過程:一項科學研究始于對現實現象以及前人研究的觀察和思考,通過思考定義問題之后,需要對問題產生的原因形成假設,為了驗證假設,科學人員需要設計縝密的試實驗,其中就需要盡可能多地采集相關數據并進行分析,根據結果不斷對現有的假設進行重定義、更正、擴展,甚至推翻(重新假設),最后總結出具有實踐意義的理論。

圖1-1 數據科學流程圖
總結一下,數據科學的工作流程一般如下。
1.定義問題。
2.獲取訓練和測試數據。
3.數據準備、清洗。
4.分析,識別模式,探索數據。
5.建立模型,預測問題,解決問題。
6.形成可視化報告,呈現問題解決步驟,找到解決方案。
7.提供或提交結果。
1.1.4 交付成果
數據科學主要針對數據問題以及被數據化的現實問題進行研究,因此數據科學的交付成果,也可以歸納成為有數據科學特質的成果。下面列舉了一些常見的數據科學的交付成果。
基于輸入的值輸出預測結果。
分類(如判斷是否是垃圾郵件)。
推薦(如Amazon的商品推薦系統)。
模式檢測和分組(如聚類)。
異常檢測(如欺詐檢測)。
識別(如人臉識別)。
可實施的見解(如儀表板、報告等可視化工具)。
自動化流程和決策(如信用卡核準)。
評分和排名(如FICO評分)。
分群(如基于人口統計進行的營銷)。
優化(如風險管理)。
預測(如銷售和收入)。
可以發現,這些成果都旨在解決一個特定的問題。另外,數據科學交付成果最大的價值,其實體現在處理問題的思維和方式上,而踐行這樣的思維和方式的,正是在數據科學領域發揮著聰明才智的人,他們被稱為“數據科學家”。