- 機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Sophon平臺(tái)的機(jī)器學(xué)習(xí)理論與實(shí)踐
- 星環(huán)科技人工智能平臺(tái)團(tuán)隊(duì)
- 359字
- 2020-01-07 16:02:41
第2章 數(shù)據(jù)預(yù)處理與特征工程
特征是原始數(shù)據(jù)的數(shù)學(xué)表示,在機(jī)器學(xué)習(xí)流水線中位于數(shù)據(jù)和模型之間。一些模型更適合某些類型的特征,反之亦然。因此,合適的特征應(yīng)該與當(dāng)前的機(jī)器學(xué)習(xí)任務(wù)相關(guān)并且容易被模型獲取。特征工程指的是從數(shù)據(jù)中提取特征,將原始數(shù)據(jù)轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)模型的格式,并為模型和任務(wù)制定最佳特征的過程。特征工程是機(jī)器學(xué)習(xí)流水線中關(guān)鍵的一步,因?yàn)楹线m的特征可以降低建模的復(fù)雜度,并使機(jī)器學(xué)習(xí)流水線產(chǎn)出更高質(zhì)量的預(yù)測(cè)結(jié)果。
機(jī)器學(xué)習(xí)領(lǐng)域有一句格言:“數(shù)據(jù)與特征工程決定了模型的上限,改進(jìn)算法只不過是逼近這個(gè)上限而已。”然而,盡管數(shù)據(jù)的預(yù)處理與特征工程很重要,卻也很少有對(duì)這個(gè)話題的單獨(dú)討論。因?yàn)檎_且適合的特征的確定是與模型和數(shù)據(jù)的背景息息相關(guān)的,而且數(shù)據(jù)和模型如此多樣化,所以很難概括出通用的機(jī)器學(xué)習(xí)流水線中的特征工程實(shí)踐。
推薦閱讀
- 大學(xué)計(jì)算機(jī)信息技術(shù)導(dǎo)論
- Hands-On Deep Learning with Apache Spark
- 虛擬儀器設(shè)計(jì)測(cè)控應(yīng)用典型實(shí)例
- AutoCAD繪圖實(shí)用速查通典
- Ansible Quick Start Guide
- Java實(shí)用組件集
- Learning Apache Cassandra(Second Edition)
- ServiceNow Cookbook
- 自動(dòng)檢測(cè)與轉(zhuǎn)換技術(shù)
- 快學(xué)Flash動(dòng)畫百例
- Python Data Science Essentials
- C語言開發(fā)技術(shù)詳解
- Salesforce for Beginners
- 網(wǎng)站入侵與腳本攻防修煉
- 教育機(jī)器人的風(fēng)口:全球發(fā)展現(xiàn)狀及趨勢(shì)