- 機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Sophon平臺(tái)的機(jī)器學(xué)習(xí)理論與實(shí)踐
- 星環(huán)科技人工智能平臺(tái)團(tuán)隊(duì)
- 1110字
- 2020-01-07 16:02:42
2.1.3 類別特征
類別特征,顧名思義,就是用來(lái)表達(dá)種類或標(biāo)簽的特征。比如,用類別特征表示的世界上的主要城市、一年的四季,或者行業(yè)(石油業(yè)、旅游業(yè)、科技行業(yè)等)。在真實(shí)世界的數(shù)據(jù)集中,類別特征的取值是有限的,一般可以用數(shù)值來(lái)表示。但與數(shù)值特征不一樣的是,用來(lái)表示類別特征的數(shù)值無(wú)法與其他數(shù)值進(jìn)行比較(比如石油業(yè)與旅行業(yè)無(wú)法進(jìn)行比較),這類特征又被稱為無(wú)序特征。
一個(gè)簡(jiǎn)單的問題可以用來(lái)區(qū)分一個(gè)特征是否為類別特征:是兩個(gè)值之間的差別比較重要,還是兩個(gè)值不同本身比較重要?500元的商品價(jià)格是100元的商品價(jià)格的5倍,因此商品價(jià)格應(yīng)該使用連續(xù)數(shù)值特征來(lái)表示。而行業(yè)(石油業(yè)、旅游業(yè)、科技行業(yè)等)是無(wú)法比較的,因此就是類別特征。
種類龐大的類別特征在交易記錄中很常見。比如,許多網(wǎng)絡(luò)服務(wù)提供商通過ID來(lái)標(biāo)識(shí)用戶,而用戶ID就是一個(gè)取值從幾百到幾百萬(wàn)的類別特征,類別數(shù)取決于網(wǎng)絡(luò)服務(wù)的用戶數(shù)量。交易的IP地址是另一個(gè)種類龐大的類別特征的例子。IP地址和用戶ID都是類別特征,因?yàn)樗鼈兌际鞘褂脭?shù)字的形式來(lái)表示,并且其大小通常與任務(wù)無(wú)關(guān)。例如,在進(jìn)行網(wǎng)絡(luò)欺詐檢測(cè)時(shí),與個(gè)人交易相關(guān)的IP地址是重要的特征,可能某些IP產(chǎn)生的欺詐行為比其他IP產(chǎn)生的多,但這并不是因?yàn)樵揑P地址的某些位數(shù)比其他IP地址的大。也就是說數(shù)值本身無(wú)關(guān)緊要。
類別特征的取值通常不是數(shù)字。例如,眼睛的顏色可以是“黑色”“藍(lán)色”“棕色”等。因此,需要使用編碼方法將這些非數(shù)值類別變?yōu)閿?shù)值形式。簡(jiǎn)單地將一個(gè)整數(shù)(比如1到k)分配給k個(gè)可能類別中的每一個(gè)是一種可行的方案。但是,由此產(chǎn)生的整數(shù)值具有可以相互比較大小的特性,而這種比較在類別特征中是沒有意義的。因此,在Sophon中引入了其他的編碼方法。
獨(dú)熱編碼
獨(dú)熱編碼(one-hot encoder)是一種使用二進(jìn)制(bit)位串來(lái)表達(dá)類別特征的方法。每一位代表一個(gè)可能的類別,由于類別的唯一性,在一組獨(dú)熱編碼的位串中只有一位是1,其余位均是0。
例如,對(duì)上面提到的行業(yè)進(jìn)行獨(dú)熱編碼,如表2-1所示。
表2-1 獨(dú)熱編碼示例

獨(dú)熱編碼的缺點(diǎn)是容易造成特征維度大幅增加,以及無(wú)法處理之前沒見過的值。
高勢(shì)集特征編碼
高勢(shì)集指的是類別取值非常多的類別特征。一個(gè)簡(jiǎn)單的例子就是郵編,每一個(gè)城市細(xì)分到每一條街道都可能會(huì)有不同的郵編,因此郵編的總數(shù)可能有成百上千個(gè)。隨著郵編數(shù)量的增多,使用獨(dú)熱編碼顯然效果不太好,因?yàn)闀?huì)產(chǎn)生非常高維的稀疏特征。因此D.Micci-Barreca等人[32]就提出了一種基于經(jīng)驗(yàn)貝葉斯理論的方法,這種方法是將高勢(shì)類別特征(high-cardinality categorical attribute)映射到連續(xù)值上的方法。So-phon中的高勢(shì)集特征編碼算子便是基于這一思想實(shí)現(xiàn)的。這里不詳細(xì)展開有關(guān)經(jīng)驗(yàn)貝葉斯理論的介紹,詳情可參照算子的說明及原始論文。算子的使用需要指定標(biāo)簽列,因此只適用于有監(jiān)督學(xué)習(xí)的數(shù)據(jù)集。
- 亮劍.NET:.NET深入體驗(yàn)與實(shí)戰(zhàn)精要
- 嵌入式系統(tǒng)及其開發(fā)應(yīng)用
- 大數(shù)據(jù)戰(zhàn)爭(zhēng):人工智能時(shí)代不能不說的事
- 計(jì)算機(jī)控制技術(shù)
- 深度學(xué)習(xí)中的圖像分類與對(duì)抗技術(shù)
- PostgreSQL Administration Essentials
- 計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)
- 電腦主板現(xiàn)場(chǎng)維修實(shí)錄
- 網(wǎng)中之我:何明升網(wǎng)絡(luò)社會(huì)論稿
- 單片機(jī)C語(yǔ)言應(yīng)用100例
- Mastering GitLab 12
- Apache源代碼全景分析(第1卷):體系結(jié)構(gòu)與核心模塊
- 中國(guó)戰(zhàn)略性新興產(chǎn)業(yè)研究與發(fā)展·數(shù)控系統(tǒng)
- 傳感器原理及實(shí)用技術(shù)
- Microsoft System Center Data Protection Manager Cookbook