官术网_书友最值得收藏!

2.1 特征提取

從未經處理的原始數據中提取的特征可能會有以下問題:


? 不屬于同一量綱:特征的規格不一樣,不能夠放在一起比較。無量綱化可以解決這一問題。

? 信息冗余:對于某些定量特征,其包含的有效信息為區間劃分,例如學習成績,假若只關心“及格”或“不及格”,那么需要將定量的考分轉換成“1”和“0”來表示及格和不及格。二值化可以解決這一問題。

? 類別特征不能直接使用:某些機器學習算法和模型只能接受數值特征的輸入,那么需要將類別特征轉換為數值特征。

? 存在缺失值:缺失值需要進行處理,如刪除、增補等。

? 信息利用率低:不同的機器學習算法和模型對數據中信息的利用是不同的。比如,對數值特征進行多項式化,或者進行其他轉換,能夠達到非線性的效果。


在模型訓練過程中,以上所述的各個方面都涉及對原始數據進行抽象、提取、變換進而產生特征的過程。特征提取的目的是自動地構建新的特征,將原始特征轉換為一組具有明顯物理意義或者統計意義的特征。特征提取也可以看作用特征描述數據的過程,而生產的特征最終用于模型預測。因此,特征提取對于理解模型和算法,以及弄清楚模型需要什么樣的特征才能有較精確的預測結果都尤為關鍵。

主站蜘蛛池模板: 社旗县| 灵丘县| 兴安盟| 鲜城| 清远市| 镇平县| 磴口县| 凤凰县| 探索| 望江县| 当雄县| 兰州市| 吴堡县| 廊坊市| 红桥区| 莎车县| 清徐县| 读书| 寿阳县| 景泰县| 清徐县| 乳源| 长顺县| 大冶市| 辽宁省| 察隅县| 达州市| 京山县| 平乡县| 比如县| 和林格尔县| 舟山市| 新绛县| 巫溪县| 嘉义市| 武穴市| 错那县| 阜南县| 古蔺县| 卓资县| 喀喇沁旗|