- 商用機器學習:數據科學實踐
- (加)約翰·赫爾
- 1150字
- 2020-10-16 17:15:27
2.5 國家風險
現在我們來考慮一個外國投資者對國家風險的理解問題。我們可以考慮的特征如下:
·GDP增長率(數據來源于國際貨幣基金組織);
·清廉指數(數據來源于透明國際);
·和平指數(數據來源于經濟與和平研究所);
·法律風險指數(數據來源于產權協會)。
對于所有的122個國家和地區的特征數據與分析可參考www2.rotman.utoronto.ca/~hull上的相關內容。表2-2為一部分數據摘錄,該表還體現了特征縮放的重要性(參考第2.1節)。GDP增長率為量級小于10%的正負數,清廉指數的取值范圍為0(高度腐敗)~100(無腐敗),和平指數的取值范圍為1(非常和平)~5(不和平),法律風險指數的取值范圍為0~10(數字越高越有利)。表2-3為表2-2經過Z評分標準化方法進行數據縮放的結果,通過表中數據可以看到澳大利亞的GDP增長率略高于平均數,其清廉指數的標準差為1.71且高于平均數,和平指數的標準差為1.20且低于平均數(但和平指數是好的),法律風險指數的標準差為1.78且高于平均數。
表2-2 國際投資風險評估,國家聚類分析數據表部分數據(完整數據請參考csv文件)
表2-3 表2-2的數據經過Z評分標準化進行縮放
當數據縮放之后,由于當前我們只有4個特征變量,從而可以通過散點圖來驗證特征之間的相互關系。從圖2-4中可以看出清廉指數和法律風險指數存在高相關性(并不意外,在法律系統不健全的國家腐敗現象更加普遍)。因此我們需要刪除清廉指數,因為它與法律風險指數存在高度重合的特征。在進行上述處理之后,我們將從3個維度來分析數據,這3個維度分別為:GDP增長率、和平指數和法律風險指數。
圖2-4 法律風險指數與清廉指數分布散點圖(詳細數據請參考Excel文件)
圖2-5展示了慣性矩是如何隨著k值的增大而變化的。如之前解釋的,我們可以通過這張圖應用肘部法來判斷子聚類的數量,即隨著k值的數量增加,慣性矩沒有明顯下降的點。圖2-5的肘部點沒有圖2-3中的那樣明顯,但是仍然可以看出當k值從1到2,再從2到3變化時,其慣性矩的變化程度大于k值從3到4時的變化程度。
圖2-5 國家投資風險評估案例:慣性矩變化趨勢圖(Python輸出結果)
表2-4為通過輪廓法所得出的結果,可以看出當子聚類的個數為3時,其平均輪廓系數最優。因此就目前使用的數據集來說,肘部法和輪廓法所得出的結論一致:最優子聚類的個數為3。[1]
表2-4 國家投資風險評估案例:平均輪廓系數與子聚類的數量趨勢圖(Python輸出結果)
表2-5~表2-7展示了當子聚類個數為3時國家和地區的聚類分布情況,表2-8展示了特征縮放后子聚類的中心。由此我們可以得出部分結論,例如高風險國家和地區在3個特征上都比均值高出1個標準差(和平指數越高表示越危險)。
表2-5 高風險國家和地區(Python輸出結果)
表2-6 中等風險國家和地區(Python輸出結果)
表2-7 低風險國家和地區(Python輸出結果)
表2-8 特征縮放(均值為0,標準差為1)后的子聚類中心(Python輸出結果)
[1] 肘部法則和輪廓分析法的結果不一定總是一致。
- HTML5+CSS3王者歸來
- 移動UI設計(微課版)
- ASP.NET Core 5.0開發入門與實戰
- Java程序員面試算法寶典
- DevOps Automation Cookbook
- The Computer Vision Workshop
- Access 2010數據庫基礎與應用項目式教程(第3版)
- Blockly創意趣味編程
- PostgreSQL 11從入門到精通(視頻教學版)
- D3.js 4.x Data Visualization(Third Edition)
- 青少年學Python(第1冊)
- Learning Raspbian
- Python Data Science Cookbook
- RubyMotion iOS Develoment Essentials
- 區塊鏈國產化實踐指南:基于Fabric 2.0