書名: 深度學習經典案例解析:基于MATLAB作者名: 趙小川本章字數: 464字更新時間: 2021-10-27 15:43:49
1.1 機器學習中的數據集
機器學習的本質是從數據中確定模型參數并利用訓練好的參數進行數據處理,其基本實現流程如圖1-1所示。

圖1-1 機器學習的基本實現流程
“數據決定了機器學習的上限,而模型和算法只是逼近這個上限。”由此可見,數據對于整個機器學習項目至關重要。
注意
數據集中或多或少都會存在部分缺失、分布不均衡、分布異常、混有無關緊要的數據等問題。這就需要對收集到的數據進行進一步的處理,這樣的步驟叫作“數據預處理”。
在機器學習中,一般將數據集劃分為兩大部分:一部分用于模型訓練,稱作訓練集(Train Set);另一部分用于模型泛化能力評估,稱作測試集(Test Set)。在模型訓練階段會將訓練集再次劃分為兩部分,一部分用于模型的訓練,而另外一部分用于交叉驗證,稱作驗證集(Validation Set),如圖1-2所示。

圖1-2 訓練集、驗證集和測試集的示意圖
如圖1-3所示,對訓練集、測試集、驗證集可以有如下的理解:學生課本中的例題即訓練集;老師布置的作業、月考等都可以算作是驗證集;高考為測試集。學生上課過程中所學習到的知識以及課上做的練習題就是模型訓練的過程。

圖1-3 對訓練集、測試集、驗證集的形象理解