官术网_书友最值得收藏!

2.4 維度災難

隨著特征個數的增加,k-均值算法將受“維度災難”(curse of dimensionality)的影響,即觀測值之間的距離將隨之逐漸增大。試想,所有特征取值為1.0的觀測值與所有特征取值為0.0的觀測值之間的歐式距離:當只有1個特征時,距離為1.0;當有2個特征時,距離為或者1.4;當有3個特征時,距離為或1.7;當有100個特征時,距離為10;當有1 000個特征時,距離為31.6。其中一個結論是,我們無法將擁有較少特征的聚類慣性矩與擁有大量特征的聚類慣性矩進行比較。

另外一個問題是,當特征的個數增加時,我們計算出的距離無法很好地用以衡量觀測值之間的距離是近還是遠。因此k-均值算法的結果在這種情況下并不理想。不少運用此算法的用戶開始尋找替代歐式距離的方法來進行評估:當觀測值x特征j的取值被記為xj,另一個觀測值y特征j的取值被記為yj時,觀測值之間的歐式距離為:

一個替代公式為:

該式的取值始終介于0到2之間。

主站蜘蛛池模板: 滨州市| 韶山市| 长宁区| 茌平县| 霍林郭勒市| 南开区| 潞城市| 濮阳市| 博白县| 崇左市| 江北区| 航空| 鸡泽县| 沧源| 九寨沟县| 湟中县| 普洱| 龙江县| 河曲县| 高唐县| 蕉岭县| SHOW| 柏乡县| 蚌埠市| 利川市| 汶上县| 墨竹工卡县| 嘉鱼县| 县级市| 罗源县| 瑞丽市| 堆龙德庆县| 当雄县| 福泉市| 凤阳县| 任丘市| 突泉县| 潞城市| 天柱县| 宁武县| 麻城市|