- 深度學習初學者指南
- (智)巴勃羅·里瓦斯
- 435字
- 2021-12-01 13:58:47
3.2 分類數據與多個類別
既然已經知道如何針對不同的目的實現對數據的二值化,那么我們可以研究其他類型的數據,比如分類數據或多標簽數據,以及如何將它們變為數字型數據。事實上,大多數先進的深度學習算法只接受數字型數據。這只是一個可以在以后得到輕松解決的設計問題,也不是什么大問題,因為有一些簡單的方法可以將分類數據轉換為有意義的數字表示形式。
分類數據以不同的類型屬性嵌入信息。這些類型屬性可以用數字或字符串表示。例如,數據集有一個名為country的列,其中的項包括“印度”“墨西哥”“法國”和“美國”。或者是具有郵政編碼(如12601、85621和73315)的數據集。前者為非數值型數據,后者為數值型數據。國家名稱需要轉換成數字才能使用,但是郵政編碼已經是數字了,僅僅作為數字并沒有意義。從機器學習的角度來看,如果將郵政編碼轉換為經緯度坐標,它們將更有意義,這將比使用普通數字更容易捕捉彼此比較接近的位置。
首先,我們將處理將字符串類型屬性轉換為普通數字的問題,然后將它們轉換為一種名為“獨熱編碼”格式的數字形式。