电子厂FC是什么岗位

書名：深度學習：從基礎(chǔ)到實踐（全2冊）
作者名： (美)安德魯·格拉斯納
本章字數(shù)： 2162字
更新時間： 2022-12-20 18:34:12

2.5　抽樣與放回

在機器學習中，我們經(jīng)常通過隨機選擇現(xiàn)有數(shù)據(jù)集中的一些元素來構(gòu)建新的數(shù)據(jù)集。我們將在2.6節(jié)中進行這種操作，并尋找樣本集的均值。

讓我們考慮兩種不同的方法來通過現(xiàn)有數(shù)據(jù)集生成新數(shù)據(jù)集，其中關(guān)鍵的問題是：從數(shù)據(jù)集中選擇一個元素時，我們是將它從數(shù)據(jù)集中移除，還是僅復制這個元素并使用它？

打個比方，假設(shè)我們?nèi)D書館找?guī)妆径唐獣?，為了保持趣味性，我們把它們放在桌子上堆成一小堆，之后從中隨機挑選。

一種方法是從書堆中隨機選擇一本書，之后把它帶回并放到桌子上，然后再回到書堆進行挑選，這樣我們就可以挑選出一堆隨機選擇的書了。注意，因為我們已經(jīng)把挑選出的每一本書都放在桌子上，所以不可能選到同一本書兩次（我們可以選擇已經(jīng)選過的書的另一印本，但已經(jīng)不是同一本書了）。

另一種方法是從書堆里選擇一本書，并將整本書復印（只是做一個比喻，我們暫時忽略法律和道德問題），然后把書放回它原來的地方，并把影印本放在桌子上。然后我們返回書堆，再一次隨機拿起一本書、復印、歸還之后把它放入書堆里，一遍又一遍，這樣我們就擁有一堆復印的書了。注意，我們將在復印之后把每本書還回書堆，這種情況下，是有可能選到同一本書并把它復制兩次的。

在機器學習中，構(gòu)建新數(shù)據(jù)集時，我們可以遵循這兩種方法中的任何一種。每從訓練集中選擇一個數(shù)據(jù)，我們可以從數(shù)據(jù)集中刪除它（這樣我們就不能再選擇它了），也可以只是復制它并將它返回到數(shù)據(jù)集（這樣我們就可以再次選擇它）。

上述兩種方法所得到的結(jié)果是全然不同的類型，無論是從明顯的表面還是從不那么明顯的統(tǒng)計數(shù)據(jù)上都可以看得出。一些機器學習算法被設(shè)計成只適用于這兩種方法中的一種。那么現(xiàn)在就讓我們更仔細地看一看這些備選方案。我們想要創(chuàng)建一個選擇列表，而這個列表是從一個初始對象池中選擇出來的。

2.5.1　有放回抽樣

首先，讓我們看一下對元素進行復制的方法，在這里，初始狀態(tài)是保持原樣的，如圖2.13所示。我們把這種方法稱為有放回抽樣（或稱為SWR），因為我們可以認為是將元素取出，為其制作一個副本，用副本替換原來的元素。

有放回抽樣最明顯的一個含義是：我們可能會多次使用同一個元素。在極端情況下，整個新建立的數(shù)據(jù)集都是一個元素的多個副本。

第二個含義是，我們可以創(chuàng)建一個比原始數(shù)據(jù)小的、大小相同的抑或更大的新數(shù)據(jù)集。由于原始數(shù)據(jù)集并不發(fā)生改變，因此只要我們愿意，就可以不斷地選擇元素。

圖2.13　有放回抽樣。每從池中移除一個元素，都會將它的一個副本放入選擇區(qū)域中，然后再把原來的元素放回池中。通過這種技術(shù)，我們可以建立選擇列表，但是原始的池是不會改變的，所以我們就有機會多次選擇一個相同的項。在這個例子中，我們兩次選擇了元素C

這一過程的統(tǒng)計學含義是：選擇是相互獨立的。沒有任何過去的背景，選擇完全不受之前的選擇的影響，也不會影響未來的選擇。

要明白這一點，讓我們看看圖2.13所示池中的8個元素，每個元素被選中的概率都是1/8?？梢钥吹?，我們首先選擇的是元素C。

現(xiàn)在新數(shù)據(jù)集里有了元素C，但是在選擇之后，我們會把這個元素“重置”回原來的數(shù)據(jù)集中，再次查看原始數(shù)據(jù)集時，8個元素仍然全部存在，如果再次進行選擇，每個元素仍有1/8的概率被選中。

這種采樣的一個日常例子是：在庫存充足的咖啡店里點一杯咖啡，比如我們點了一杯香草拿鐵之后，香草拿鐵這個選項也不會從菜單上被刪除，還可供其他顧客選擇。

2.5.2　無放回抽樣

另一種通過隨機選擇去構(gòu)建新數(shù)據(jù)集的方法是：從原始數(shù)據(jù)集中刪除所選擇的元素，并將其放到新數(shù)據(jù)集中。因為沒有進行復制，所以原始數(shù)據(jù)集丟失了一個元素。這種方法稱為無放回抽樣（又稱為SWOR），如圖2.14所示。

圖2.14　無放回抽樣。每從池中移除一個元素，我們就會將其放入所選擇的區(qū)域。因為沒有把它重新放回池中，所以無法再次選擇這一元素

讓我們比較一下SWR與SWOR的含義。首先，在SWOR中，對任何元素的選擇都不能超過一次，因為我們從原始數(shù)據(jù)集中刪除了它。其次，在SWOR中，新數(shù)據(jù)集可以比原來的更小，或者是大小相同，但是不能變得更大。最后，在SWOR中，選擇是相互依賴的。圖2.14中，每個元素第一次被選中的概率為1/8。但是當選擇元素C后，我們沒有用副本替換它，所以如果回到原始數(shù)據(jù)集，就只剩下7個元素可用，即每個元素有1/7的概率被選中。選擇這些元素中的任何一個的概率都增加了，因為可供選擇的元素變少了。

如果再選擇另一個元素，剩下的每個元素就都有1/6的概率被選中，以此類推。在選擇了7個元素后，最后一個元素被選中的概率就有100%。

無放回抽樣的一個常見示例是玩撲克牌游戲，每發(fā)一張牌，它就會從整副牌中“消失”，在重新收回牌或是洗牌之前是無法再發(fā)出的。

2.5.3　做選擇

假設(shè)我們想通過從原始數(shù)據(jù)集中選擇來構(gòu)建一個比原始數(shù)據(jù)集小的新數(shù)據(jù)集，可以采用有放回抽樣和無放回抽樣兩種方式。

與無放回抽樣相比，有放回抽樣可以產(chǎn)生更多可能的新數(shù)據(jù)集，讓我們來看看這一點。假設(shè)原始數(shù)據(jù)集中只有3個對象（A、B和C），而我們需要一個包含兩個對象的新數(shù)據(jù)集。采用無放回抽樣只能得到3種可能的新數(shù)據(jù)集：（A，B）、（A，C）和（B，C）；而采用有放回抽樣，不僅可以得到這3個，還可以得到（A，A）、（B，B）和（C，C）。

一般來說，有放回抽樣總是可以為我們提供一組有更多可能性的新數(shù)據(jù)集。還有很多關(guān)于統(tǒng)計特性的有趣差異，但是我們不展開討論。

要記住的重要一點是：“是否放回”會對構(gòu)建新數(shù)據(jù)集產(chǎn)生影響。

官术网_书友最值得收藏!

深度學習：從基礎(chǔ)到實踐（全2冊）

2.5 抽樣與放回

2.5.1 有放回抽樣

2.5.2 無放回抽樣

2.5.3 做選擇

2.5　抽樣與放回

2.5.1　有放回抽樣

2.5.2　無放回抽樣

2.5.3　做選擇