- 深入淺出Python數(shù)據(jù)分析
- 張維元編著
- 658字
- 2023-09-15 17:12:20
1.2.3 數(shù)據(jù)項目的分析流程
數(shù)據(jù)項目的分析流程是:從數(shù)據(jù)開始,通過一連串的過程發(fā)現(xiàn)隱藏在數(shù)據(jù)中的規(guī)則,利用這些規(guī)則完成一些有趣的應用,大致概括為取得數(shù)據(jù)—數(shù)據(jù)預處理—數(shù)據(jù)轉換—數(shù)據(jù)分析—數(shù)據(jù)解釋—發(fā)現(xiàn)知識。
圖1.4所示為烏薩馬·菲亞德在The KDD Process for Extracting Useful Knowledge from Volumes of Data中提到的數(shù)據(jù)項目的分析流程。這個看似單一的流程,其實需要相關人員不斷重復地嘗試,一層一層探索,最終才能找到真正具有價值的數(shù)據(jù)。

圖1.4 數(shù)據(jù)項目的分析流程
取得數(shù)據(jù)是指從原始數(shù)據(jù)到?jīng)Q定存放數(shù)據(jù)庫的過程,一般來說會涉及數(shù)據(jù)獲取、數(shù)據(jù)爬蟲、數(shù)據(jù)管理、數(shù)據(jù)倉儲等內容。
數(shù)據(jù)預處理是指根據(jù)規(guī)則(API、SQL)從數(shù)據(jù)庫中取出數(shù)據(jù)集,進行數(shù)據(jù)清理,處理數(shù)據(jù)中的噪聲或錯誤信息,或進行多個數(shù)據(jù)集的整合。
數(shù)據(jù)轉換是指在取得數(shù)據(jù)集之后,我們經(jīng)常需要針對分析的具體用法進行調整,將原始數(shù)據(jù)轉換成適合分析模型的格式,如篩選欄位、長寬表轉置等。
數(shù)據(jù)分析可以分為兩個階段,即探索性數(shù)據(jù)分析(Exploratory Data Analysis)與數(shù)據(jù)挖掘/機器學習。我們可以把探索性數(shù)據(jù)分析視為一種前期的觀察,再經(jīng)由數(shù)據(jù)挖掘進行進一步挖掘。
數(shù)據(jù)解釋指人們通常會通過數(shù)據(jù)可視化的方式及圖表方式呈現(xiàn)前述的結果,運用一些可能的原因對數(shù)據(jù)進行解釋,然后把這一整套數(shù)據(jù)聯(lián)系起來。
人們一般在數(shù)據(jù)分析的范疇中把數(shù)據(jù)清理和特征工程放在數(shù)據(jù)預處理環(huán)節(jié)一起討論,但是在kaggle競賽中,通常會把數(shù)據(jù)清理視為“處理遺失值”這個動作,也把特征工程視為一個獨立過程。常見的特征工程包括特征編碼(Categorical Encoding)、特征選取(Feature Selection)、特征降維(Dimensionality Reduction)、正規(guī)化(Normalization)/標準化(Standardization),如圖1.5所示。

圖1.5 特征工程