官术网_书友最值得收藏!

2.1 特征縮放

在詳細介紹聚類算法之前,我們必須先討論特征縮放(feature scaling),它也被稱為數據標準化(normalization or standardization)。特征縮放是機器學習算法必須要做的第一步,包括k-均值(k-means)。特征縮放的目的是確保每個特征在算法中都被給予同樣的重視。假設我們將男性按照以下兩項特征進行聚類:身高(英尺)和體重(磅[1]),身高的范圍為60~80英尺,體重的范圍為100~350磅;如果不進行特征縮放的話,這兩項特征將無法以相同的重要性被代入運算,因為身高的范圍遠遠小于體重(20英尺和250磅)。

特征縮放的方法之一是計算特征的均值和標準差,將每個特征取值減去均值再除以標準差。設V為某個樣本的特征取值:

在式(2-1)中,μ為該特征取值的所有樣本的均值,σ為該特征取值的所有樣本的標準差,該計算方法有時候又被稱為Z評分標準化(Z-score normalization)。被縮放的特征取值均值為0,標準差為1。如果我們需要在聚類模型中使某一項特征的權重高于其他特征,則需要將這一項特征的標準差設置為大于1。

另一種特征縮放的方法是用該特征的取值減去其最小值,再除以最大值與最小值之差,此方法被稱作極值縮放(min-max scaling),被縮放后所得的數據都介于0到1之間。

Z評分標準化常常被更廣泛地運用,其原因在于該方法可更小程度地避免極端值造成的影響,而極值縮放則適合于特征值被限定在一定范圍內來收集的數據。在本章后續介紹k-均值算法時,我們將假設特征取值已經用上述兩種方法之一進行過縮放處理。

[1] 1 磅=0.453 6 千克。——譯者注

主站蜘蛛池模板: 绥宁县| 深泽县| 潮安县| 隆回县| 高雄市| 辽宁省| 郁南县| 太和县| 晋江市| 交口县| 厦门市| 彩票| 永平县| 洛阳市| 岱山县| 浑源县| 白银市| 太和县| 南丹县| 千阳县| 苍山县| 育儿| 鸡西市| 临清市| 自治县| 务川| 项城市| 夏邑县| 兰考县| 泗阳县| 满洲里市| 博兴县| 冀州市| 稷山县| 东兰县| 潢川县| 茂名市| 元氏县| 扬中市| 高清| 谷城县|