pg人鱼公主网址是多少

書名：深入淺出Python數(shù)據(jù)分析
作者名：張維元編著
本章字數(shù)： 658字
更新時間： 2023-09-15 17:12:20

1.2.3　數(shù)據(jù)項目的分析流程

數(shù)據(jù)項目的分析流程是：從數(shù)據(jù)開始，通過一連串的過程發(fā)現(xiàn)隱藏在數(shù)據(jù)中的規(guī)則，利用這些規(guī)則完成一些有趣的應用，大致概括為取得數(shù)據(jù)—數(shù)據(jù)預處理—數(shù)據(jù)轉換—數(shù)據(jù)分析—數(shù)據(jù)解釋—發(fā)現(xiàn)知識。

圖1.4所示為烏薩馬·菲亞德在The KDD Process for Extracting Useful Knowledge from Volumes of Data中提到的數(shù)據(jù)項目的分析流程。這個看似單一的流程，其實需要相關人員不斷重復地嘗試，一層一層探索，最終才能找到真正具有價值的數(shù)據(jù)。

圖1.4　數(shù)據(jù)項目的分析流程

取得數(shù)據(jù)是指從原始數(shù)據(jù)到?jīng)Q定存放數(shù)據(jù)庫的過程，一般來說會涉及數(shù)據(jù)獲取、數(shù)據(jù)爬蟲、數(shù)據(jù)管理、數(shù)據(jù)倉儲等內容。

數(shù)據(jù)預處理是指根據(jù)規(guī)則（API、SQL）從數(shù)據(jù)庫中取出數(shù)據(jù)集，進行數(shù)據(jù)清理，處理數(shù)據(jù)中的噪聲或錯誤信息，或進行多個數(shù)據(jù)集的整合。

數(shù)據(jù)轉換是指在取得數(shù)據(jù)集之后，我們經(jīng)常需要針對分析的具體用法進行調整，將原始數(shù)據(jù)轉換成適合分析模型的格式，如篩選欄位、長寬表轉置等。

數(shù)據(jù)分析可以分為兩個階段，即探索性數(shù)據(jù)分析（Exploratory Data Analysis）與數(shù)據(jù)挖掘／機器學習。我們可以把探索性數(shù)據(jù)分析視為一種前期的觀察，再經(jīng)由數(shù)據(jù)挖掘進行進一步挖掘。

數(shù)據(jù)解釋指人們通常會通過數(shù)據(jù)可視化的方式及圖表方式呈現(xiàn)前述的結果，運用一些可能的原因對數(shù)據(jù)進行解釋，然后把這一整套數(shù)據(jù)聯(lián)系起來。

人們一般在數(shù)據(jù)分析的范疇中把數(shù)據(jù)清理和特征工程放在數(shù)據(jù)預處理環(huán)節(jié)一起討論，但是在kaggle競賽中，通常會把數(shù)據(jù)清理視為“處理遺失值”這個動作，也把特征工程視為一個獨立過程。常見的特征工程包括特征編碼（Categorical Encoding）、特征選取（Feature Selection）、特征降維（Dimensionality Reduction）、正規(guī)化（Normalization）／標準化（Standardization），如圖1.5所示。

圖1.5　特征工程

官术网_书友最值得收藏!

深入淺出Python數(shù)據(jù)分析

1.2.3 數(shù)據(jù)項目的分析流程

1.2.3　數(shù)據(jù)項目的分析流程