官术网_书友最值得收藏!

1.2.3 數(shù)據(jù)項目的分析流程

數(shù)據(jù)項目的分析流程是:從數(shù)據(jù)開始,通過一連串的過程發(fā)現(xiàn)隱藏在數(shù)據(jù)中的規(guī)則,利用這些規(guī)則完成一些有趣的應用,大致概括為取得數(shù)據(jù)—數(shù)據(jù)預處理—數(shù)據(jù)轉換—數(shù)據(jù)分析—數(shù)據(jù)解釋—發(fā)現(xiàn)知識。

圖1.4所示為烏薩馬·菲亞德在The KDD Process for Extracting Useful Knowledge from Volumes of Data中提到的數(shù)據(jù)項目的分析流程。這個看似單一的流程,其實需要相關人員不斷重復地嘗試,一層一層探索,最終才能找到真正具有價值的數(shù)據(jù)。

圖1.4 數(shù)據(jù)項目的分析流程

取得數(shù)據(jù)是指從原始數(shù)據(jù)到?jīng)Q定存放數(shù)據(jù)庫的過程,一般來說會涉及數(shù)據(jù)獲取、數(shù)據(jù)爬蟲、數(shù)據(jù)管理、數(shù)據(jù)倉儲等內容。

數(shù)據(jù)預處理是指根據(jù)規(guī)則(API、SQL)從數(shù)據(jù)庫中取出數(shù)據(jù)集,進行數(shù)據(jù)清理,處理數(shù)據(jù)中的噪聲或錯誤信息,或進行多個數(shù)據(jù)集的整合。

數(shù)據(jù)轉換是指在取得數(shù)據(jù)集之后,我們經(jīng)常需要針對分析的具體用法進行調整,將原始數(shù)據(jù)轉換成適合分析模型的格式,如篩選欄位、長寬表轉置等。

數(shù)據(jù)分析可以分為兩個階段,即探索性數(shù)據(jù)分析(Exploratory Data Analysis)與數(shù)據(jù)挖掘/機器學習。我們可以把探索性數(shù)據(jù)分析視為一種前期的觀察,再經(jīng)由數(shù)據(jù)挖掘進行進一步挖掘。

數(shù)據(jù)解釋指人們通常會通過數(shù)據(jù)可視化的方式及圖表方式呈現(xiàn)前述的結果,運用一些可能的原因對數(shù)據(jù)進行解釋,然后把這一整套數(shù)據(jù)聯(lián)系起來。

人們一般在數(shù)據(jù)分析的范疇中把數(shù)據(jù)清理和特征工程放在數(shù)據(jù)預處理環(huán)節(jié)一起討論,但是在kaggle競賽中,通常會把數(shù)據(jù)清理視為“處理遺失值”這個動作,也把特征工程視為一個獨立過程。常見的特征工程包括特征編碼(Categorical Encoding)、特征選取(Feature Selection)、特征降維(Dimensionality Reduction)、正規(guī)化(Normalization)/標準化(Standardization),如圖1.5所示。

圖1.5 特征工程

主站蜘蛛池模板: 民和| 桂阳县| 七台河市| 望江县| 彩票| 五华县| 太仓市| 延庆县| 工布江达县| 武安市| 时尚| 义马市| 宿松县| 江油市| 霍邱县| 荆州市| 安图县| 昌吉市| 南靖县| 东乡族自治县| 周口市| 甘孜县| 开鲁县| 南昌市| 衡南县| 安乡县| 佳木斯市| 孟津县| 贵溪市| 鄄城县| 高唐县| 上饶市| 扎兰屯市| 敖汉旗| 阿克陶县| 乌恰县| 高陵县| 石阡县| 钟祥市| 江都市| 古浪县|