官术网_书友最值得收藏!

2.1 經(jīng)典決策樹應(yīng)用的一般流程

經(jīng)典決策樹算法誕生在20世紀90年代之前,那時網(wǎng)絡(luò)環(huán)境還不發(fā)達,所處理的樣本數(shù)據(jù)集主要是小規(guī)模數(shù)據(jù),特征數(shù)并不多,因此數(shù)據(jù)的特征工程并不必要。當時的主要任務(wù)是處理一些特征數(shù)據(jù)的缺失,針對分類數(shù)據(jù)和連續(xù)數(shù)據(jù)進行區(qū)別化處理以及相互轉(zhuǎn)換,包括連續(xù)數(shù)據(jù)的離散化等。

獲得規(guī)整的樣本數(shù)據(jù)集之后,就需要利用各類決策樹算法進行決策樹模型的構(gòu)建。決策樹算法的差異主要體現(xiàn)在選擇特征屬性的策略、選擇屬性分割點策略、不同類型特征屬性的處理方法、如何終止決策樹的構(gòu)建過程、如何優(yōu)化模型以避免過擬合、如何降低決策樹模型的復雜度等方面。本章介紹的三類決策樹算法在這些方面都存在差異。

獲得決策樹模型之后,接下來要利用這些模型對未知樣本數(shù)據(jù)進行推理和預測。在這個過程中,為降低模型復雜度或提高模型泛化能力,需要進行剪枝優(yōu)化等處理。

本節(jié)先介紹缺失值的處理和連續(xù)數(shù)值屬性的離散化處理方法,決策樹構(gòu)建通過三種經(jīng)典算法的具體介紹展開,之后再介紹幾種經(jīng)典的決策樹剪枝策略。

主站蜘蛛池模板: 三穗县| 桂林市| 宣化县| 鹿泉市| 长顺县| 讷河市| 莎车县| 敦化市| 贵溪市| 黄骅市| 当阳市| 洛隆县| 盐山县| 伊通| 邵东县| 秦安县| 安国市| 包头市| 巴东县| 拉萨市| 宁武县| 南陵县| 武平县| 渝中区| 吴旗县| 堆龙德庆县| 庄河市| 台东市| 石首市| 花垣县| 莱阳市| 威海市| 蓬莱市| 商城县| 黑山县| 石景山区| 女性| 台湾省| 安塞县| 江津市| 馆陶县|