官术网_书友最值得收藏!

1.1 機器學習中的數據集

機器學習的本質是從數據中確定模型參數并利用訓練好的參數進行數據處理,其基本實現流程如圖1-1所示。

圖1-1 機器學習的基本實現流程

“數據決定了機器學習的上限,而模型和算法只是逼近這個上限。”由此可見,數據對于整個機器學習項目至關重要。

注意

數據集中或多或少都會存在部分缺失、分布不均衡、分布異常、混有無關緊要的數據等問題。這就需要對收集到的數據進行進一步的處理,這樣的步驟叫作“數據預處理”。

在機器學習中,一般將數據集劃分為兩大部分:一部分用于模型訓練,稱作訓練集(Train Set);另一部分用于模型泛化能力評估,稱作測試集(Test Set)。在模型訓練階段會將訓練集再次劃分為兩部分,一部分用于模型的訓練,而另外一部分用于交叉驗證,稱作驗證集(Validation Set),如圖1-2所示。

圖1-2 訓練集、驗證集和測試集的示意圖

如圖1-3所示,對訓練集、測試集、驗證集可以有如下的理解:學生課本中的例題即訓練集;老師布置的作業、月考等都可以算作是驗證集;高考為測試集。學生上課過程中所學習到的知識以及課上做的練習題就是模型訓練的過程。

圖1-3 對訓練集、測試集、驗證集的形象理解

主站蜘蛛池模板: 七台河市| 贵定县| 阆中市| 乌兰浩特市| 清涧县| 江安县| 西贡区| 边坝县| 城固县| 乐业县| 承德县| 平陆县| 蓝山县| 晋中市| 康保县| 东乡族自治县| 河津市| 壶关县| 米易县| 土默特左旗| 甘孜县| 永善县| 凯里市| 无为县| 开平市| 平安县| 项城市| 华阴市| 会东县| 正定县| 房山区| 洛宁县| 武邑县| 隆安县| 达拉特旗| 嘉峪关市| 新巴尔虎左旗| 迁安市| 青岛市| 永丰县| 和田市|