官术网_书友最值得收藏!

2.1.1 探索性數據分析

探索性數據分析不單指數據的可視化或摘要統計。有價值的探索性分析關心的是從原始數據中尋找啟發,以避免在之后的任務中因頻繁處理瑣碎細節而“迷失”。探索性數據分析的目的是了解數據,在進入完整的機器學習流水線之前就應該完成這項工作。它將提供以下三個方面的幫助:


? 獲得有關數據清理的寶貴提示,從而大大降低模型失敗的概率。

? 獲得如何開展特征工程的啟發,從而極大地提升模型的上限。

? 獲得對數據集的整體把握,從而對模型選擇、參數調優以及結果分析帶來很好的影響。


進行探索性數據分析的原則是快速、有效果斷。不要跳過這個步驟,但也不要花費太多的時間。Sophon提供了種類繁多的數據可視化方法以及圖表呈現,不要沉溺于“玩”這些功能,你的目的是了解數據,實際上真正提供有用信息的往往幾張圖表就夠了。


樣本明細表


要回答有關數據集的一些基本問題,比如:樣本數量是多少?特征有多少維?特征的數據類型是什么?是數值型還是類別型?樣本是否包含標簽?等等。直接將數據集的部分數據展示出來,可以得到一個對數據最直觀的感受。使用Sophon的數據集管理界面,在明細表中可以看前500條數據,圖2-1給出了Titanic數據集的示例。

圖2-1 Titanic數據集示例

針對展示的原始數據,回答以下四個問題:


? 所有的列是否有意義?

? 列中的值是否有意義?

? 數據的值是否在合理的區間中?

? 數據缺失是否嚴重(通過簡單的判斷)?


圖形探索


Sophon支持多種對數據的可視化處理,包括直方圖、散點圖、箱線圖、餅圖、雷達圖等。下面我們通過例子來說明如何使用圖表可視化工具從數據中獲取我們所關心的信息。


箱線圖(連續特征分布)


箱線圖是用來觀察類別特征和數值特征之間關系的有效方法。以圖2-2為例,我們繪制了按類別Survived(逃生,取值0表示未逃生者,取值1表示逃生者)分組展示的Fare(船票價格)指標的分布情況,其中Fare 0指未逃生者的船票價格,Fare 1指逃生者的船票價格。

圖2-2 箱線圖示例

從圖中我們可以看出:


? 逃生者船票價格的中位數(框中間垂直條)高于未逃生者。

? 逃生者中的最低船票價格與未逃生者中的最低船票價格相等,逃生者中的最高船票價格則高于未逃生者中的最高船票價格。

? 用點標注出超過三倍標準差的值(outlier),在這個圖中不存在這樣的樣本。

? 所有的outlier在建模時考慮作為異常點,并進行異常處理。


條形圖(類別特征分布)


條形圖將單個特征中各類別的取值分布清晰地展示出來。條的長短直觀地反映出一個類別的樣本數量。以圖2-3為例,我們繪制了Pclass(艙等)的取值分布,總共只有三種取值。

圖2-3 條形圖示例

從條形圖中可以看出一個類別特征的兩種典型情況:


? 稠密類別:出現一個極長的橫條,幾乎超過其他橫條長度的總和。這意味著所有樣本幾乎都屬于同一類別。

? 稀疏類別:出現一個很短的橫條,這意味著屬于該類別的樣本數量極少。在建模時,需要慎重處理上述兩種情況。


統計分析


如圖2-4所示,使用統計分析功能將一次性計算出所有特征的一些常用屬性。

圖2-4 統計分析

? 類別種類過多的非數值特征:被認為是類ID列特征,不進行統計分析。

? 類別特征:統計缺失值(有效值)比例、最多取值(眾數)及比例、最少取值及比例。

? 數值特征:統計缺失值(有效值)比例、分位數(最大值、3/4分位數、中位數、1/4分位數、最小值)、平均值、標準差、峰度、偏度。


這里使用特征類型來區分是否是數值特征,而不是根據特征所有不同取值的個數。比如說Pclass特征是int類型,因此被認為是數值特征來統計,而實際上Pclass特征取值只有1、2、3三類,應該視其為類別特征。

主站蜘蛛池模板: 承德县| 太仆寺旗| 龙里县| 鄂温| 宁南县| 甘孜| 百色市| 南城县| 霸州市| 永福县| 额尔古纳市| 张北县| 宜阳县| 新巴尔虎左旗| 安塞县| 德化县| 商丘市| 双流县| 沙田区| 绥滨县| 江陵县| 民勤县| 黑山县| 望城县| 佛坪县| 昌吉市| 阿勒泰市| 乌兰浩特市| 竹溪县| 乌鲁木齐县| 澄城县| 那曲县| 嵩明县| 青神县| 云阳县| 犍为县| 桃源县| 田林县| 扎兰屯市| 阳城县| 博爱县|