不朽浪漫五血视频

書名：商用機器學習：數據科學實踐
作者名： (加)約翰·赫爾
本章字數： 596字
更新時間： 2020-10-16 17:15:26

2.1　特征縮放

在詳細介紹聚類算法之前，我們必須先討論特征縮放（feature scaling），它也被稱為數據標準化（normalization or standardization）。特征縮放是機器學習算法必須要做的第一步，包括k-均值（k-means）。特征縮放的目的是確保每個特征在算法中都被給予同樣的重視。假設我們將男性按照以下兩項特征進行聚類：身高（英尺）和體重（磅^[1]），身高的范圍為60～80英尺，體重的范圍為100～350磅；如果不進行特征縮放的話，這兩項特征將無法以相同的重要性被代入運算，因為身高的范圍遠遠小于體重（20英尺和250磅）。

特征縮放的方法之一是計算特征的均值和標準差，將每個特征取值減去均值再除以標準差。設V為某個樣本的特征取值：

在式（2-1）中，μ為該特征取值的所有樣本的均值，σ為該特征取值的所有樣本的標準差，該計算方法有時候又被稱為Z評分標準化（Z-score normalization）。被縮放的特征取值均值為0，標準差為1。如果我們需要在聚類模型中使某一項特征的權重高于其他特征，則需要將這一項特征的標準差設置為大于1。

另一種特征縮放的方法是用該特征的取值減去其最小值，再除以最大值與最小值之差，此方法被稱作極值縮放（min-max scaling），被縮放后所得的數據都介于0到1之間。

Z評分標準化常常被更廣泛地運用，其原因在于該方法可更小程度地避免極端值造成的影響，而極值縮放則適合于特征值被限定在一定范圍內來收集的數據。在本章后續介紹k-均值算法時，我們將假設特征取值已經用上述兩種方法之一進行過縮放處理。

[1] 1 磅=0.453 6 千克。——譯者注

官术网_书友最值得收藏!

商用機器學習：數據科學實踐

2.1 特征縮放

2.1　特征縮放