官术网_书友最值得收藏!

4.2 理解特征工程

不管你是否相信,一個機器學習系統(tǒng)的學習效果都主要取決于訓練數(shù)據(jù)的質(zhì)量。盡管每種學習算法都有其優(yōu)點和缺點,但是性能的差異往往取決于數(shù)據(jù)準備或者數(shù)據(jù)表示的方式。因此,可以把特征工程理解為數(shù)據(jù)表示的一種工具。機器學習算法試圖從樣本數(shù)據(jù)中學習問題的解決方案,而特征工程會問:用于學習問題的解決方案的樣本數(shù)據(jù)的最佳表示是什么?

是否還記得,在前面我們討論過一個完整的機器學習管道。在那里我們提及過特征提取,但是還有沒有真正討論其究竟是什么。讓我們來看看特征提取是如何融入機器學習管道的,見圖4-1。

圖4-1 特征提取與機器學習過程

簡單提示一下,我們已經(jīng)討論過,特征工程可以分為兩個階段:

  • 特征選擇(Feature selection):這是識別數(shù)據(jù)中重要屬性(或者特征)的過程。一張圖像的特征可能是邊緣、角點或脊的位置。在這一章,我們將研究OpenCV提供的一些更高級的特征描述符,例如二值魯棒獨立基本特征(Binary Robust Independent Elementary Feature,BRIEF)以及面向FAST和可旋轉(zhuǎn)的BRIEF(Oriented FAST and Rotated BRIEF,ORB)。
  • 特征提取(Feature extraction):這實際上是將原始數(shù)據(jù)變換到期望特征空間以滿足機器學習算法的過程,如圖4-1所示。例如Harris操作符,它允許我們提取一張圖像中的角點(即一個選擇的特征)。

剩下要做的就是逐步介紹這些過程,并討論一些最常見的數(shù)據(jù)預處理技術(shù)。

主站蜘蛛池模板: 淄博市| 岳西县| 桂林市| 衡阳县| 和平区| 柳州市| 板桥市| 嘉定区| 西青区| 龙游县| 海丰县| 蒙城县| 花莲市| 泉州市| 南城县| 安陆市| 仪陇县| 拉孜县| 汉阴县| 临泽县| 阜平县| 安达市| 西峡县| 石渠县| 道孚县| 上林县| 新巴尔虎左旗| 天峨县| 淅川县| 内黄县| 麦盖提县| 垣曲县| 库车县| 左贡县| 天门市| 慈溪市| 灵台县| 德清县| 福贡县| 南阳市| 疏勒县|