官术网_书友最值得收藏!

第4章 數(shù)據(jù)表示和特征工程

在第3章中,我們建立了第一個監(jiān)督學(xué)習(xí)模型,并將其應(yīng)用于一些像IrisBoston這樣的經(jīng)典數(shù)據(jù)集。但是,在現(xiàn)實(shí)世界中,作為預(yù)封裝數(shù)據(jù)庫一部分的數(shù)據(jù)很少以簡潔的<n_samples x n_features>特征矩陣的形式出現(xiàn)。我們的任務(wù)是找到一種有意義的方式表示數(shù)據(jù)。尋找表示數(shù)據(jù)最優(yōu)方法的過程稱為特征工程(feature engineering),這是數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)實(shí)踐者試圖解決實(shí)際問題的主要任務(wù)之一。

我知道你更愿意跳到最后去建立人們見過的最深神經(jīng)網(wǎng)絡(luò)。但是,請相信我,特征工程這個內(nèi)容很重要!用正確的方式表示我們的數(shù)據(jù)比我們選擇精確的參數(shù)對監(jiān)督模型性能的影響更大。我們也可以開始創(chuàng)造自己的特征了。因此,在這一章,我們將回顧一些常見的特征工程任務(wù)。我們將要介紹預(yù)處理、縮放技術(shù)以及降維。我們還將學(xué)習(xí)表示類別變量、文本特征以及圖像。

本章將介紹以下主題:

  • 一學(xué)就會的常見預(yù)處理技術(shù)。
  • 中心縮放及多維縮放。
  • 類別變量的表示。
  • 使用PCA之類的技術(shù)對數(shù)據(jù)降維。
  • 文本特征的表示。
  • 學(xué)習(xí)圖像編碼的最佳方法。

讓我們從頭開始介紹吧!

主站蜘蛛池模板: 友谊县| 伊春市| 炎陵县| 红安县| 峨山| 将乐县| 渭源县| 漾濞| 绥滨县| 商南县| 拉萨市| 合川市| 龙山县| 油尖旺区| 潢川县| 油尖旺区| 雷山县| 淮滨县| 宝鸡市| 沂南县| 青川县| 嘉义市| 遂宁市| 开江县| 阿合奇县| 奉节县| 通道| 贡嘎县| 通道| 虹口区| 驻马店市| 新宾| 高州市| 临武县| 曲麻莱县| 监利县| 永新县| 平南县| 深泽县| 泰安市| 乾安县|