官术网_书友最值得收藏!

1.7 作為特征學習與決策融合的決策樹

在機器學習和模式識別中,特征是被觀察現象的一個單獨的可測量的屬性或數據,是指要對其進行分析或預測的所有獨立樣本所共有的屬性或特性。只要對模型有用,任何屬性都可以是一個特征。特征可以是原始樣本數據的屬性,也可以是從中學習或抽取的有用的結構表示。最初的原始特征集可能是冗余的,而且可能因太大而無法管理。因此,在機器學習和模式識別的許多應用中,初始步驟一般包括選擇一個特征子集,或構建一個新的和縮小的特征集,以方便學習,并提高泛化和可解釋性。

在模式識別、分類和回歸中,選擇信息量大、鑒別力強、獨立的特征是有效算法的關鍵步驟。特征通常是數字特征,但在句法模式識別中也會用到結構特征,如字符串和圖形。特征的概念與線性回歸等統計技術中使用的解釋變量的概念有關。

在字符識別中,特征可以包括沿水平和垂直方向計數黑色像素數的直方圖、內孔數、筆畫檢測和許多其他特征。在語音識別中,用于識別音素的特征可以包括噪聲比、聲音的長度、相對功率、濾波器匹配和許多其他特征。在垃圾郵件檢測算法中,特征可以包括是否存在某些郵件標題、郵件結構、語言、特定術語的頻率、文本的語法正確性等。在計算機視覺中,有大量可能的特征,如邊緣和對象。

提取或選擇特征是藝術和科學的結合,使用領域知識從原始數據中提取特征的過程被稱為特征工程。這些特征可以用來提高機器學習算法的性能。提取特征時需要對多種可能性進行實驗,并將自動化技術與領域專家的直覺和知識相結合。將這個過程自動化就是特征學習,機器不僅使用特征進行學習,而且可以自己學習和表示特征。

特征可以來自原始數據的原始屬性,也可以來自原始數據的衍生特征,這些衍生特征可以通過手工特征工程或特征表示學習方法獲得。衍生特征來源于原始數據,但可能是原始數據蘊涵的底層的、低級的或更細粒度的特性,也可能是多個原始數據聚合出的特性。這些特征可能有助于挖掘原始數據蘊涵的信息,也可能有助于解釋特征的不同作用和提升機器學習模型的可解釋性。

如何有效利用這些特征是目前人工智能社區的一個研究熱點。特征表示與決策樹模型的結合,可以有效發揮決策樹模型的可解釋能力,同時提升決策樹模型的預測精度。因此,深度學習決策樹模型成為目前決策樹發展的新階段,本書第8章將對此進行介紹。

主站蜘蛛池模板: 浦江县| 石柱| 华阴市| 永兴县| 简阳市| 遂宁市| 蓝山县| 牡丹江市| 庐江县| 富宁县| 东阿县| 区。| 宣恩县| 曲麻莱县| 河源市| 包头市| 栖霞市| 厦门市| 尤溪县| 溧水县| 乐清市| 嘉禾县| 阿拉尔市| 抚远县| 乌拉特后旗| 永昌县| 敦煌市| 新营市| 会宁县| 乐亭县| 若尔盖县| 阆中市| 揭西县| 北票市| 乐至县| 正定县| 轮台县| 敦化市| 浠水县| 高台县| 横山县|