官术网_书友最值得收藏!

第2章 數(shù)據(jù)預(yù)處理與特征工程

特征是原始數(shù)據(jù)的數(shù)學(xué)表示,在機(jī)器學(xué)習(xí)流水線中位于數(shù)據(jù)和模型之間。一些模型更適合某些類型的特征,反之亦然。因此,合適的特征應(yīng)該與當(dāng)前的機(jī)器學(xué)習(xí)任務(wù)相關(guān)并且容易被模型獲取。特征工程指的是從數(shù)據(jù)中提取特征,將原始數(shù)據(jù)轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)模型的格式,并為模型和任務(wù)制定最佳特征的過程。特征工程是機(jī)器學(xué)習(xí)流水線中關(guān)鍵的一步,因?yàn)楹线m的特征可以降低建模的復(fù)雜度,并使機(jī)器學(xué)習(xí)流水線產(chǎn)出更高質(zhì)量的預(yù)測(cè)結(jié)果。


機(jī)器學(xué)習(xí)領(lǐng)域有一句格言:“數(shù)據(jù)與特征工程決定了模型的上限,改進(jìn)算法只不過是逼近這個(gè)上限而已。”然而,盡管數(shù)據(jù)的預(yù)處理與特征工程很重要,卻也很少有對(duì)這個(gè)話題的單獨(dú)討論。因?yàn)檎_且適合的特征的確定是與模型和數(shù)據(jù)的背景息息相關(guān)的,而且數(shù)據(jù)和模型如此多樣化,所以很難概括出通用的機(jī)器學(xué)習(xí)流水線中的特征工程實(shí)踐。

主站蜘蛛池模板: 邵阳县| 志丹县| 元氏县| 屯留县| 平果县| 西吉县| 广平县| 平乡县| 临高县| 民县| 德阳市| 察隅县| 和静县| 栾城县| 蓬安县| 中方县| 壶关县| 五寨县| 鸡西市| 项城市| 沅陵县| 东乡县| 将乐县| 德江县| 宝兴县| 德令哈市| 阳泉市| 孟津县| 隆尧县| 曲松县| 平遥县| 诏安县| 廉江市| 弋阳县| 武汉市| 吉隆县| 闻喜县| 疏附县| 定安县| 乐山市| 阿坝县|