- 深度學習:從基礎(chǔ)到實踐(全2冊)
- (美)安德魯·格拉斯納
- 2162字
- 2022-12-20 18:34:12
2.5 抽樣與放回
在機器學習中,我們經(jīng)常通過隨機選擇現(xiàn)有數(shù)據(jù)集中的一些元素來構(gòu)建新的數(shù)據(jù)集。我們將在2.6節(jié)中進行這種操作,并尋找樣本集的均值。
讓我們考慮兩種不同的方法來通過現(xiàn)有數(shù)據(jù)集生成新數(shù)據(jù)集,其中關(guān)鍵的問題是:從數(shù)據(jù)集中選擇一個元素時,我們是將它從數(shù)據(jù)集中移除,還是僅復制這個元素并使用它?
打個比方,假設(shè)我們?nèi)D書館找?guī)妆径唐獣?,為了保持趣味性,我們把它們放在桌子上堆成一小堆,之后從中隨機挑選。
一種方法是從書堆中隨機選擇一本書,之后把它帶回并放到桌子上,然后再回到書堆進行挑選,這樣我們就可以挑選出一堆隨機選擇的書了。注意,因為我們已經(jīng)把挑選出的每一本書都放在桌子上,所以不可能選到同一本書兩次(我們可以選擇已經(jīng)選過的書的另一印本,但已經(jīng)不是同一本書了)。
另一種方法是從書堆里選擇一本書,并將整本書復印(只是做一個比喻,我們暫時忽略法律和道德問題),然后把書放回它原來的地方,并把影印本放在桌子上。然后我們返回書堆,再一次隨機拿起一本書、復印、歸還之后把它放入書堆里,一遍又一遍,這樣我們就擁有一堆復印的書了。注意,我們將在復印之后把每本書還回書堆,這種情況下,是有可能選到同一本書并把它復制兩次的。
在機器學習中,構(gòu)建新數(shù)據(jù)集時,我們可以遵循這兩種方法中的任何一種。每從訓練集中選擇一個數(shù)據(jù),我們可以從數(shù)據(jù)集中刪除它(這樣我們就不能再選擇它了),也可以只是復制它并將它返回到數(shù)據(jù)集(這樣我們就可以再次選擇它)。
上述兩種方法所得到的結(jié)果是全然不同的類型,無論是從明顯的表面還是從不那么明顯的統(tǒng)計數(shù)據(jù)上都可以看得出。一些機器學習算法被設(shè)計成只適用于這兩種方法中的一種。那么現(xiàn)在就讓我們更仔細地看一看這些備選方案。我們想要創(chuàng)建一個選擇列表,而這個列表是從一個初始對象池中選擇出來的。
2.5.1 有放回抽樣
首先,讓我們看一下對元素進行復制的方法,在這里,初始狀態(tài)是保持原樣的,如圖2.13所示。我們把這種方法稱為有放回抽樣(或稱為SWR),因為我們可以認為是將元素取出,為其制作一個副本,用副本替換原來的元素。
有放回抽樣最明顯的一個含義是:我們可能會多次使用同一個元素。在極端情況下,整個新建立的數(shù)據(jù)集都是一個元素的多個副本。
第二個含義是,我們可以創(chuàng)建一個比原始數(shù)據(jù)小的、大小相同的抑或更大的新數(shù)據(jù)集。由于原始數(shù)據(jù)集并不發(fā)生改變,因此只要我們愿意,就可以不斷地選擇元素。

圖2.13 有放回抽樣。每從池中移除一個元素,都會將它的一個副本放入選擇區(qū)域中,然后再把原來的元素放回池中。通過這種技術(shù),我們可以建立選擇列表,但是原始的池是不會改變的,所以我們就有機會多次選擇一個相同的項。在這個例子中,我們兩次選擇了元素C
這一過程的統(tǒng)計學含義是:選擇是相互獨立的。沒有任何過去的背景,選擇完全不受之前的選擇的影響,也不會影響未來的選擇。
要明白這一點,讓我們看看圖2.13所示池中的8個元素,每個元素被選中的概率都是1/8??梢钥吹?,我們首先選擇的是元素C。
現(xiàn)在新數(shù)據(jù)集里有了元素C,但是在選擇之后,我們會把這個元素“重置”回原來的數(shù)據(jù)集中,再次查看原始數(shù)據(jù)集時,8個元素仍然全部存在,如果再次進行選擇,每個元素仍有1/8的概率被選中。
這種采樣的一個日常例子是:在庫存充足的咖啡店里點一杯咖啡,比如我們點了一杯香草拿鐵之后,香草拿鐵這個選項也不會從菜單上被刪除,還可供其他顧客選擇。
2.5.2 無放回抽樣
另一種通過隨機選擇去構(gòu)建新數(shù)據(jù)集的方法是:從原始數(shù)據(jù)集中刪除所選擇的元素,并將其放到新數(shù)據(jù)集中。因為沒有進行復制,所以原始數(shù)據(jù)集丟失了一個元素。這種方法稱為無放回抽樣(又稱為SWOR),如圖2.14所示。

圖2.14 無放回抽樣。每從池中移除一個元素,我們就會將其放入所選擇的區(qū)域。因為沒有把它重新放回池中,所以無法再次選擇這一元素
讓我們比較一下SWR與SWOR的含義。首先,在SWOR中,對任何元素的選擇都不能超過一次,因為我們從原始數(shù)據(jù)集中刪除了它。其次,在SWOR中,新數(shù)據(jù)集可以比原來的更小,或者是大小相同,但是不能變得更大。最后,在SWOR中,選擇是相互依賴的。圖2.14中,每個元素第一次被選中的概率為1/8。但是當選擇元素C后,我們沒有用副本替換它,所以如果回到原始數(shù)據(jù)集,就只剩下7個元素可用,即每個元素有1/7的概率被選中。選擇這些元素中的任何一個的概率都增加了,因為可供選擇的元素變少了。
如果再選擇另一個元素,剩下的每個元素就都有1/6的概率被選中,以此類推。在選擇了7個元素后,最后一個元素被選中的概率就有100%。
無放回抽樣的一個常見示例是玩撲克牌游戲,每發(fā)一張牌,它就會從整副牌中“消失”,在重新收回牌或是洗牌之前是無法再發(fā)出的。
2.5.3 做選擇
假設(shè)我們想通過從原始數(shù)據(jù)集中選擇來構(gòu)建一個比原始數(shù)據(jù)集小的新數(shù)據(jù)集,可以采用有放回抽樣和無放回抽樣兩種方式。
與無放回抽樣相比,有放回抽樣可以產(chǎn)生更多可能的新數(shù)據(jù)集,讓我們來看看這一點。假設(shè)原始數(shù)據(jù)集中只有3個對象(A、B和C),而我們需要一個包含兩個對象的新數(shù)據(jù)集。采用無放回抽樣只能得到3種可能的新數(shù)據(jù)集:(A,B)、(A,C)和(B,C);而采用有放回抽樣,不僅可以得到這3個,還可以得到(A,A)、(B,B)和(C,C)。
一般來說,有放回抽樣總是可以為我們提供一組有更多可能性的新數(shù)據(jù)集。還有很多關(guān)于統(tǒng)計特性的有趣差異,但是我們不展開討論。
要記住的重要一點是:“是否放回”會對構(gòu)建新數(shù)據(jù)集產(chǎn)生影響。
- 大學計算機基礎(chǔ)實踐教程
- Protel 99SE常用功能與應用實例精講
- 計算機文化基礎(chǔ)
- 大學計算機基礎(chǔ)
- 計算機應用基礎(chǔ)項目教程(第2版)
- 大學計算機基礎(chǔ)實踐教程(第2版)
- 計算機應用基礎(chǔ)實驗指導
- 策略三十六計和算法三十六計
- R語言臨床預測模型實戰(zhàn)
- 計算機應用基礎(chǔ)教程上機指導(Windows 7+Of?ce 2010)
- SketchUp 2016基礎(chǔ)培訓教程
- 計算機應用基礎(chǔ)學習指導
- Access數(shù)據(jù)庫基礎(chǔ)與應用標準教程(實戰(zhàn)微課版)
- 計算機文化基礎(chǔ)(Windows 7+Office 2010)
- 穿越計算機的迷霧(第2版)