- 商用機器學習:數據科學實踐
- (加)約翰·赫爾
- 372字
- 2020-10-16 17:15:27
2.4 維度災難
隨著特征個數的增加,k-均值算法將受“維度災難”(curse of dimensionality)的影響,即觀測值之間的距離將隨之逐漸增大。試想,所有特征取值為1.0的觀測值與所有特征取值為0.0的觀測值之間的歐式距離:當只有1個特征時,距離為1.0;當有2個特征時,距離為或者1.4;當有3個特征時,距離為
或1.7;當有100個特征時,距離為10;當有1 000個特征時,距離為31.6。其中一個結論是,我們無法將擁有較少特征的聚類慣性矩與擁有大量特征的聚類慣性矩進行比較。
另外一個問題是,當特征的個數增加時,我們計算出的距離無法很好地用以衡量觀測值之間的距離是近還是遠。因此k-均值算法的結果在這種情況下并不理想。不少運用此算法的用戶開始尋找替代歐式距離的方法來進行評估:當觀測值x特征j的取值被記為xj,另一個觀測值y特征j的取值被記為yj時,觀測值之間的歐式距離為:
一個替代公式為:
該式的取值始終介于0到2之間。
推薦閱讀
- .NET之美:.NET關鍵技術深入解析
- Redis入門指南(第3版)
- LabVIEW2018中文版 虛擬儀器程序設計自學手冊
- Visual C++實例精通
- Python深度學習
- 概率成形編碼調制技術理論及應用
- D3.js 4.x Data Visualization(Third Edition)
- Instant Ext.NET Application Development
- Bootstrap 4 Cookbook
- ABAQUS6.14中文版有限元分析與實例詳解
- UML軟件建模
- Mastering JavaScript
- 虛擬現實建模與編程(SketchUp+OSG開發技術)
- Flutter從0基礎到App上線
- Kotlin程序員面試算法寶典