- 數據科學實戰指南
- TalkingData
- 645字
- 2019-06-19 15:56:20
1.2 數據科學項目概述
數據科學項目是利用數據科學來解決問題的數據項目。數據科學項目想要取得成功,需要項目參與者、數據和工具的配合,缺一不可。
和普通項目相比,數據科學項目往往具有以下特點。
數據科學項目的需求可能是之前從未遇到過的,或是現有行業中的新需求,或是針對新行業,之前的相關積累很難復用。
客戶的需求可能是復雜的、多維度的,涉及多條業務線,受到業務線交叉的影響。
針對客戶需求所提供的產品/服務資產專用性較高,難以合并同類項或者利用資源的協同性達到降低成本的效果。
可以說開展數據科學項目像極了在實驗室里做實驗,也可以說,每次開展數據科學項目都好比進行了一次新的精益創業——往往沒有多少成熟的前人經驗用以借鑒,需要通過邏輯思辨和巧妙的組合,將企業現有的能力有機轉化為針對某個特定需求(不是特定客戶,也不是特定場景)的產品或服務。數據科學項目是面向某個特定的數據科學問題的、滿足科學項目基本流程特征的項目,其產出是最小可執行的數據產品(MVDP)。
相較于其他項目,數據科學項目的一個顯著的特點是,其經常會與數據處理的過程以及數據產品產生的過程形成耦合。圖1-2展示了一個典型的數據科學項目的流程,可以看出,數據科學項目的過程包括采集數據、整合數據、訓練模型、部署模型等。在這個過程中,不同的階段有不同的產出:有的階段產出結構化的、可分析的數據集,有的則產出待優化的模型。沒有一個數據科學項目是能夠一次性得出最佳模型的,因為數據處理的過程和挖掘數據含義的過程,就是不斷嘗試、不斷校準的過程。

圖1-2 數據科學項目流程