官术网_书友最值得收藏!

1.1 數據科學的基本概念

隨著計算機技術的發(fā)展和有用數據的快速增多,數據科學應運而生。數據科學的總體目標是在已有數據集的基礎上,通過特定的算法提取信息,并將其轉化為可理解的知識以輔助做決策。

例如,北京****信用管理有限公司是一家典型的數據公司,有兩個主要業(yè)務:第一個是為會員機構提供數據加工服務,第二個是提供反欺詐與信用風險管理的產品和咨詢服務。第一個業(yè)務的主要工作內容是為會員機構清洗數據,并提供數據存儲與管理服務。按照經濟學的觀點,這類業(yè)務的附加價值極低,只能獲得社會一般勞動報酬。第二個業(yè)務屬于增值服務,數據科學工作者將數據與金融借貸的業(yè)務知識相結合,為會員機構提供風控方面的咨詢服務。這類業(yè)務的邊際報酬在客戶量達到一定閾值之后是遞增的,即一元的投入會獲得高于一元的產出,可以為企業(yè)高筑商業(yè)的安全邊際。從這家公司的業(yè)務中可以看出,數據是基礎,數據科學是研發(fā),不做研發(fā)的企業(yè)只能成為代工廠。

數據科學的工作范式見圖1-1,以后我們的工作都是在重復這些步驟。

013-01

圖1-1 數據科學的工作范式

我們再來看一個例子。有一個淘寶商家希望通過促銷的方式激活沉默客戶。這里的“決策和行動”就是向一些客戶發(fā)放打折券。打折券不應該是隨意發(fā)放的,比如黏性很高的客戶沒有打折券也會持續(xù)購買。為了明確應該向哪些客戶發(fā)放打折券,商家需要了解關于客戶的三個知識:客戶的流失可能性、客戶價值、客戶對打折券的興趣。這些關于客戶的知識往往被稱為客戶標簽[1]。根據獲取標簽的難度,客戶標簽可以分為基礎、統計、模型三種。基礎標簽可以從原始數據直接獲取,比如性別、年齡段、職業(yè),可以供決策者使用,等價于信息和數據。統計標簽是通過原始數據匯總得到的,比如獲得客戶的價值標簽需要將客戶過去一段時間內在企業(yè)的所有消費進行匯總,并扣除消耗的成本。統計標簽通過對原始數據進行簡單的描述性統計分析獲得。模型標簽比較復雜,是在基礎標簽、統計標簽和已有的模型標簽的基礎上,通過構建數據挖掘模型得到的,比如客戶的流失概率、違約概率的標簽。具體到本例,客戶的流失可能性、客戶價值、客戶對打折券的興趣這三個標簽都屬于統計標簽。表1-1所示是該商家的交易流水表,記錄了每位客戶每筆交易的時間、金額和交易類型。從這些交易流水數據中獲取信息的最簡單而通用的方法被稱為RFM模型。

表1-1 淘寶商家的交易流水

013-02

圖1-2是根據表1-1的數據所做的RFM模型。RFM模型將每個信息進行二次分類,得到客戶分群。R(最后一次消費時間)標簽可以代表客戶的流失可能性,離最后一次消費時間越久的客戶的流失可能性越高。M(一段時期內消費的總金額或平均金額)標簽可以代表客戶的價值,消費額高的客戶的價值高,因此可以初步確定重要保持和重要挽留客戶都屬于應該營銷的客戶。最后一個標簽F(一段時期內消費的頻次)代表客戶對打折券的興趣。直接使用RFM模型是不能滿足要求的,我們可以按照交易類型,計算每個客戶所有交易類型中購買特價產品的F(一段時期內消費的頻次)或M的占比。這里有人會開始糾結,兩個標簽該選哪個呢?其實,“對打折券的興趣”是一個概念,我們可以用多種方法得到不同的標簽來表示這個概念。如果你追求完美,可以使用后續(xù)章節(jié)中講的主成分方法進行指標合成。

014-01

圖1-2 RFM模型示例

經過以上數據分析,我們終于可以進行有針對性的折扣券營銷了。細心的讀者可以發(fā)現,數據分析是按照圖1-1所示的工作范式從右至左規(guī)劃和分析、從左至右實際操作的。本案例比較簡單,數據量不大,使用Excel進行數據分析即可。

不過,當一個企業(yè)的年銷售額達到幾十億元,活躍客戶量達到幾十萬時,其就必須聘請專業(yè)的數據科學工作者,使用復雜的算法和專業(yè)的分析工具了。

與數據科學相關的知識涉及多個學科和領域,包括統計學、數據挖掘、模式識別、人工智能(機器學習)、數據庫等,如圖1-3所示。數據科學的算法來源比較復雜,所以同一概念在不同領域的稱呼不一樣。為了便于本書讀者將來與不同領域的專家溝通,我們力爭列出出現的術語在不同領域對應的稱呼。

014-02

圖1-3 數據科學知識領域

數據庫:數據是數據科學的基礎,任何數據分析都離不開數據。如今信息化建設日趨完善,數據庫作為存儲數據的工具,被數據分析人員廣泛使用。Python和R之類的工具都是內存計算,難以處理太大的數據。因此在對數據庫中的數據進行分析前,數據分析師需要借助Oracle之類的數據庫工具得到待分析的數據,并在數據庫內進行適當的清洗和轉換。即使在大數據平臺上做數據分析,大量的數據也是在Hive或Impala中處理后才被導入Spark進行建模。

統計學:統計學一直被認為是針對小數據的數據分析方法,不過其仍舊在數據科學領域擔任重要的角色,比如對數據進行抽樣、描述性分析、結果檢驗等。目前商業(yè)智能中的數據可視化技術絕大多數使用的是統計學中的描述性分析。而變量降維、客戶分群主要還是采用多元統計學中的主成分分析和聚類算法。

人工智能/機器學習/模式識別:一些數據科學方法起源于早期科技人員對計算機人工智能的研究,比如神經網絡算法是模仿人類神經系統運作的,不僅可以通過訓練數據進行學習,而且能根據學習的結果對未知的數據進行預測。

很多人視數學為進入數據科學的攔路虎,這是完全沒有必要的。在一開始接觸數據科學時,我們完全可以從業(yè)務需求出發(fā),以最簡單的方法完成工作任務。

主站蜘蛛池模板: 商都县| 长海县| 铜川市| 汾阳市| 河源市| 三河市| 东平县| 正安县| 屏边| 尚志市| 荆门市| 璧山县| 丽江市| 米泉市| 泽库县| 荥经县| 西林县| 辉县市| 大冶市| 高淳县| 射阳县| 台东县| 华亭县| 理塘县| 丹江口市| 宣恩县| 金寨县| 张北县| 平乐县| 宣威市| 甘谷县| 建宁县| 巩留县| 长乐市| 中江县| 武川县| 巫溪县| 乌拉特后旗| 林西县| 都昌县| 梧州市|