- 機器學習實戰:基于Sophon平臺的機器學習理論與實踐
- 星環科技人工智能平臺團隊
- 487字
- 2020-01-07 16:02:41
2.1 特征提取
從未經處理的原始數據中提取的特征可能會有以下問題:
? 不屬于同一量綱:特征的規格不一樣,不能夠放在一起比較。無量綱化可以解決這一問題。
? 信息冗余:對于某些定量特征,其包含的有效信息為區間劃分,例如學習成績,假若只關心“及格”或“不及格”,那么需要將定量的考分轉換成“1”和“0”來表示及格和不及格。二值化可以解決這一問題。
? 類別特征不能直接使用:某些機器學習算法和模型只能接受數值特征的輸入,那么需要將類別特征轉換為數值特征。
? 存在缺失值:缺失值需要進行處理,如刪除、增補等。
? 信息利用率低:不同的機器學習算法和模型對數據中信息的利用是不同的。比如,對數值特征進行多項式化,或者進行其他轉換,能夠達到非線性的效果。
在模型訓練過程中,以上所述的各個方面都涉及對原始數據進行抽象、提取、變換進而產生特征的過程。特征提取的目的是自動地構建新的特征,將原始特征轉換為一組具有明顯物理意義或者統計意義的特征。特征提取也可以看作用特征描述數據的過程,而生產的特征最終用于模型預測。因此,特征提取對于理解模型和算法,以及弄清楚模型需要什么樣的特征才能有較精確的預測結果都尤為關鍵。
推薦閱讀
- 大數據導論:思維、技術與應用
- Word 2000、Excel 2000、PowerPoint 2000上機指導與練習
- 樂高機器人:WeDo編程與搭建指南
- Design for the Future
- 7天精通Dreamweaver CS5網頁設計與制作
- Implementing Splunk 7(Third Edition)
- Implementing AWS:Design,Build,and Manage your Infrastructure
- Enterprise PowerShell Scripting Bootcamp
- 聊天機器人:入門、進階與實戰
- Learning Azure Cosmos DB
- 西門子變頻器技術入門及實踐
- 網站前臺設計綜合實訓
- 教育機器人的風口:全球發展現狀及趨勢
- Java組件設計
- PHP求職寶典