官术网_书友最值得收藏!

1.3 監督學習

如果樣本帶有預先設定的標簽(就像我們在前文的例子中看到的那樣),就說我們正在進行監督學習(supervised learning),這種監督來自標簽,它們控制著圖1.8中的比較步驟,并告訴算法是否預測了正確的標簽。

監督學習有兩種類型——分類(classification)和回歸(regression)。分類是指遍歷一個給定的類別集合,之后找到最適合描述特定輸入的類別;回歸是指通過一組測量值來預測一些其他的值(通常是下一個值,但也可能是在集合開始之前或中間的某個地方的數值)。

下面讓我們依次來看一下。

1.3.1 分類

假設有一組日常用品的照片,照片中有蘋果削皮器、烤箱、鋼琴等,我們想根據照片所展示的東西來對其進行分類,那么就把對這些照片進行分類歸類的過程稱為分類歸類

在這種方法中,我們通過向計算機提供一個列表開始訓練,該列表列出了我們希望計算機學習的所有標簽(或類、類別)。通常,這個列表只是簡單組合了訓練集中所有樣本的所有標簽,去掉了重復項。

然后我們用大量照片和它們的標簽來訓練系統,直到確定它能很好地預測出每張照片的正確標簽。

至此,我們就可以給系統一些以前從未見過的新照片了。我們希望它能正確地標記它在訓練過程中看到的物品的圖像,如果出現無法識別的形狀或者這個形狀在訓練集所包含的類別之外,系統就會嘗試從它所知道的類別中選出最接近的類別,如圖1.10所示。

圖1.10 在進行分類時,我們用一組圖像訓練一個分類器,每個圖像都有一個相關的標簽。當訓練完成后,我們就可以給它一些新的圖像,之后它會嘗試再去為每個圖像選擇最好的標簽。圖中展示的這個分類器沒有受過金屬勺子或耳機類別的訓練,所以它展示了所能找到的最接近的匹配類別

在圖1.10中,我們使用一個經過訓練的分類器來識別之前從未見過的4個圖像[Simonyan14],值得稱贊的是,它發現了開瓶器,盡管這個物體被刻意做成一艘船的形狀。然而,該系統并沒有經過與金屬勺或耳機相關的類別訓練,因此在這兩種情況下,它所找到的都只是最接近的匹配。為了正確地識別這些對象,我們就需要在訓練過程中向系統展示更多的相關物品的示例。

另一種看待這種情況發生的方式是:系統只能理解它所學到的東西。傳統的分類器總是盡力為每個輸入找到最接近的匹配,但是它們只能從所知道的類別中選擇。

1.3.2 回歸

假設我們對測量值進行了收集,但是收集結果并不完整,而我們又希望能夠估計缺失的值。例如,我們在持續跟蹤當地體育館舉辦的一系列音樂會的到場觀眾人數,以便根據音樂會的總門票收入,按照一定比例給樂隊支付報酬。

然而,我們計算時漏掉了某個晚上的到場觀眾人數,為了制訂預算,我們就要知道明天的觀眾到場率是多少。測量結果如圖1.11a所示,而我們對缺失值的估計如圖1.11b所示。

(a)                                             (b)

圖1.11 在回歸中,我們需要使用一組輸入和輸出值,這里的輸入值是5月5日到13日的音樂會日期,而輸出值是到場觀眾人數。(a)實測數據,缺少5月8日的值;(b)紅點是對5月8日缺失點的值的估計,而黃點是對5月13日到場觀眾人數的預測

我們把這種填充和預測數據的過程稱為回歸問題。“回歸”這個名字可能會讓人產生誤解,因為“回歸”的意思是回到以前的狀態,但是在這里似乎沒有任何回歸的動作。

這一不常見的詞來自發表于1886年的一篇論文,一位科學家在研究兒童的身高(參見“參考資料”部分的[Galton86])時發現,雖然有些孩子長得高,有些孩子長得矮,但隨著時間的推移,人們的身高會趨于平均。他將此描述為“回歸至平庸”,意思是測量趨向于從極端走向平均值。

雖然通常來說“回歸至平庸”這個短語會被認為是來源于Galton的,但在發表得更早的一篇關于達爾文《物種起源》[Darwin59]的不太起眼的文章中,也有一個非常相似的評論。一位名叫Fleeming Jenkin的評論家認為:物種多樣性會被“讓一切回歸平庸的普適力量”所“湮滅”。

如今,“平庸”一詞帶有一些負面的含義,所以現在這個概念通常稱為“趨均數回歸”。其中“均數”是一種平均值,而“回歸”一詞仍然用來表示使用數據的統計屬性來估計缺失值或預測未來值的概念。

因此,“回歸”問題就是我們有一個取決于輸入的值(如到場觀眾人數是某月某日的函數),之后需要為新的輸入預測一個新的值。

最著名的回歸是線性回歸(linear regression)。“線性”指的是這種技術會嘗試用直線匹配輸入數據,如圖1.12所示。

圖1.12 用數學形狀表示數據點。(a)線性回歸是將直線與數據相匹配,但只有一條線無法與數據很好地匹配,其優點是非常簡單;(b)更復雜的線性回歸將同一組數據與曲線相匹配,這樣可以更好地匹配數據,但是其形式更復雜,在計算時需要做更多的工作(從而需要更多的時間)

直線很吸引人,因為它很簡單,但在這個例子中可以看到,它無法很好地描述數據——數據是會上下起伏的,這是直線無法捕捉到的。誠然,這不是世界上最糟糕的匹配,但的確也不是一個很好的匹配。

我們可以使用一些更復雜的回歸形式來創建更復雜的曲線類型,如圖1.12b所示。這些方法可以實現更好的數據擬合,但要耗費更長的計算時間。隨著曲線變得越來越復雜,我們往往需要更多的數據支撐。

主站蜘蛛池模板: 乌苏市| 通河县| 毕节市| 仁布县| 永寿县| 南投县| 奉新县| 苍溪县| 澳门| 德令哈市| 建水县| 苍溪县| 阜新| 德保县| 恭城| 天柱县| 澄迈县| 浏阳市| 肥东县| 巴彦县| 永德县| 龙泉市| 葵青区| 西峡县| 陆川县| 剑河县| 清丰县| 钦州市| 郎溪县| 桓仁| 偏关县| 南投县| 东宁县| 金门县| 海淀区| 临汾市| 苍南县| 莒南县| 云浮市| 宿州市| 门头沟区|