官术网_书友最值得收藏!

1.4 構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)的路線圖

在前面的章節(jié)中,我們討論了機(jī)器學(xué)習(xí)的基本概念及其三種不同類型。本節(jié)將討論機(jī)器學(xué)習(xí)系統(tǒng)中與算法相關(guān)的其他重要部分。圖1-9展示了在預(yù)測建模過程中使用機(jī)器學(xué)習(xí)的典型工作流程,我們將在后續(xù)幾個(gè)小節(jié)中詳細(xì)討論。

025-01

圖 1-9

1.4.1 預(yù)處理——整理數(shù)據(jù)

讓我們從構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)的路線圖開始討論。原始數(shù)據(jù)很少以能滿足學(xué)習(xí)算法的最佳性能所需要的理想形式出現(xiàn)。因此,數(shù)據(jù)的預(yù)處理是所有機(jī)器學(xué)習(xí)應(yīng)用中最關(guān)鍵的步驟之一。

以前一節(jié)的鳶尾花數(shù)據(jù)集為例,我們可以把原始數(shù)據(jù)視為欲從中提取有意義特征的一系列花朵的圖像。有意義的特征可能是顏色、色調(diào)、強(qiáng)度、高度、長度和寬度。

為了獲得模型的最佳性能,許多機(jī)器學(xué)習(xí)算法要求所選特征的測量結(jié)果單位相同,通常通過把特征數(shù)據(jù)變換到[0,1]的取值范圍,或者均值為0、方差為1的標(biāo)準(zhǔn)正態(tài)分布來實(shí)現(xiàn),后面的章節(jié)將會(huì)對(duì)此進(jìn)行介紹。

某些選定的特征相互之間可能高度相關(guān),因此在某種程度上呈現(xiàn)冗余的現(xiàn)象。在這種情況下,降維技術(shù)對(duì)于將特征壓縮到低維子空間非常有價(jià)值。降低特征空間維數(shù)的好處在于減少存儲(chǔ)空間,提高算法的運(yùn)行速度。在某些情況下,如果數(shù)據(jù)集包含大量不相關(guān)的特征或噪聲,換句話說,如果數(shù)據(jù)集的信噪比較低,那么降維也可以提高模型的預(yù)測性能。

為了確定機(jī)器學(xué)習(xí)算法不僅在訓(xùn)練數(shù)據(jù)集上表現(xiàn)良好,而且對(duì)新數(shù)據(jù)也有很好的適應(yīng)性,我們希望將數(shù)據(jù)集隨機(jī)分成單獨(dú)的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。用訓(xùn)練數(shù)據(jù)集來訓(xùn)練和優(yōu)化機(jī)器學(xué)習(xí)模型,同時(shí)把測試數(shù)據(jù)集保留到最后以評(píng)估最終的模型。

1.4.2 訓(xùn)練和選擇預(yù)測模型

在后面的章節(jié)中可以看到,為了完成各種不同的任務(wù),目前開發(fā)了許多不同的機(jī)器學(xué)習(xí)算法。根據(jù)David Wolpert著名的“天下沒有免費(fèi)午餐”這個(gè)定理,我們可以得出機(jī)器學(xué)習(xí)絕非“免費(fèi)的”這個(gè)重要結(jié)論[1]還可以把這個(gè)概念與俗語相關(guān)聯(lián),“如果你只有一把錘子,你就會(huì)把所有的東西看成釘子,這或許是種誘惑”(Abraham Maslow,1966)。例如,每個(gè)分類算法都存在著固有的偏置,如果不對(duì)分類任務(wù)做任何假設(shè),沒有哪個(gè)分類模型會(huì)占上風(fēng)。因此,在實(shí)踐中,至少要比較幾種不同的算法,以便訓(xùn)練和選擇性能最好的模型。但在比較不同的模型之前,我們首先要確定度量性能的指標(biāo)。通常用分類準(zhǔn)確率作為度量指標(biāo),其定義為正確分類的個(gè)體占所有個(gè)體的百分比。

有人可能會(huì)問:“如果不用測試數(shù)據(jù)集進(jìn)行模型選擇,而將其保留用于最終的模型評(píng)估,那么我們?cè)趺粗滥膫€(gè)模型在最終測試數(shù)據(jù)集和真實(shí)數(shù)據(jù)上表現(xiàn)得更好呢?”為了解決嵌套在這個(gè)問題中的問題,我們可以采用不同的交叉驗(yàn)證技術(shù),將數(shù)據(jù)集進(jìn)一步拆分為訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集,以評(píng)估模型的泛化性能。最后,我們也不能期望軟件庫所提供的不同機(jī)器學(xué)習(xí)算法的默認(rèn)參數(shù)值對(duì)特定問題最優(yōu)。因此,后續(xù)章節(jié)將會(huì)頻繁使用超參數(shù)調(diào)優(yōu)技術(shù)來調(diào)優(yōu)模型的性能。

我們可以把超參數(shù)看作不是從數(shù)據(jù)中學(xué)習(xí)的參數(shù),而是模型的調(diào)節(jié)旋鈕,可以來回旋轉(zhuǎn)調(diào)整模型的性能。后面章節(jié)中的實(shí)際示例會(huì)對(duì)此有更加清楚的說明。

1.4.3 評(píng)估模型并對(duì)未曾謀面的數(shù)據(jù)進(jìn)行預(yù)測

在訓(xùn)練數(shù)據(jù)集上擬合并選擇模型之后,我們可以用測試數(shù)據(jù)集來評(píng)估它在從來沒見過的新數(shù)據(jù)上的表現(xiàn),以評(píng)估泛化誤差。如果我們對(duì)模型的表現(xiàn)滿意,那么就可以用它來預(yù)測未來的新數(shù)據(jù)。請(qǐng)注意,前面提到的諸如特征縮放和降維過程中的參數(shù),僅能從訓(xùn)練數(shù)據(jù)集獲得,相同的參數(shù)會(huì)被應(yīng)用到測試數(shù)據(jù)集,以及任何其他的新數(shù)據(jù)集。否則,對(duì)測試數(shù)據(jù)集的性能評(píng)估可能會(huì)過于樂觀。

主站蜘蛛池模板: 花莲市| 叶城县| 建昌县| 勐海县| 如东县| 华安县| 上饶县| 乐安县| 石门县| 水富县| 刚察县| 和田市| 修文县| 灵台县| 盐津县| 武隆县| 漳平市| 南通市| 策勒县| 韶关市| 甘谷县| 京山县| 昌平区| 芦山县| 阿巴嘎旗| 嵩明县| 禹城市| 泊头市| 澄江县| 宁河县| 休宁县| 赤壁市| 申扎县| 灌云县| 茂名市| 安远县| 大悟县| 花垣县| 行唐县| 永年县| 卢龙县|