官术网_书友最值得收藏!

2.5 抽樣與放回

在機器學習中,我們經(jīng)常通過隨機選擇現(xiàn)有數(shù)據(jù)集中的一些元素來構(gòu)建新的數(shù)據(jù)集。我們將在2.6節(jié)中進行這種操作,并尋找樣本集的均值。

讓我們考慮兩種不同的方法來通過現(xiàn)有數(shù)據(jù)集生成新數(shù)據(jù)集,其中關(guān)鍵的問題是:從數(shù)據(jù)集中選擇一個元素時,我們是將它從數(shù)據(jù)集中移除,還是僅復制這個元素并使用它?

打個比方,假設(shè)我們?nèi)D書館找?guī)妆径唐獣?,為了保持趣味性,我們把它們放在桌子上堆成一小堆,之后從中隨機挑選。

一種方法是從書堆中隨機選擇一本書,之后把它帶回并放到桌子上,然后再回到書堆進行挑選,這樣我們就可以挑選出一堆隨機選擇的書了。注意,因為我們已經(jīng)把挑選出的每一本書都放在桌子上,所以不可能選到同一本書兩次(我們可以選擇已經(jīng)選過的書的另一印本,但已經(jīng)不是同一本書了)。

另一種方法是從書堆里選擇一本書,并將整本書復印(只是做一個比喻,我們暫時忽略法律和道德問題),然后把書放回它原來的地方,并把影印本放在桌子上。然后我們返回書堆,再一次隨機拿起一本書、復印、歸還之后把它放入書堆里,一遍又一遍,這樣我們就擁有一堆復印的書了。注意,我們將在復印之后把每本書還回書堆,這種情況下,是有可能選到同一本書并把它復制兩次的。

在機器學習中,構(gòu)建新數(shù)據(jù)集時,我們可以遵循這兩種方法中的任何一種。每從訓練集中選擇一個數(shù)據(jù),我們可以從數(shù)據(jù)集中刪除它(這樣我們就不能再選擇它了),也可以只是復制它并將它返回到數(shù)據(jù)集(這樣我們就可以再次選擇它)。

上述兩種方法所得到的結(jié)果是全然不同的類型,無論是從明顯的表面還是從不那么明顯的統(tǒng)計數(shù)據(jù)上都可以看得出。一些機器學習算法被設(shè)計成只適用于這兩種方法中的一種。那么現(xiàn)在就讓我們更仔細地看一看這些備選方案。我們想要創(chuàng)建一個選擇列表,而這個列表是從一個初始對象中選擇出來的。

2.5.1 有放回抽樣

首先,讓我們看一下對元素進行復制的方法,在這里,初始狀態(tài)是保持原樣的,如圖2.13所示。我們把這種方法稱為有放回抽樣(或稱為SWR),因為我們可以認為是將元素取出,為其制作一個副本,用副本替換原來的元素。

有放回抽樣最明顯的一個含義是:我們可能會多次使用同一個元素。在極端情況下,整個新建立的數(shù)據(jù)集都是一個元素的多個副本。

第二個含義是,我們可以創(chuàng)建一個比原始數(shù)據(jù)小的、大小相同的抑或更大的新數(shù)據(jù)集。由于原始數(shù)據(jù)集并不發(fā)生改變,因此只要我們愿意,就可以不斷地選擇元素。

圖2.13 有放回抽樣。每從池中移除一個元素,都會將它的一個副本放入選擇區(qū)域中,然后再把原來的元素放回池中。通過這種技術(shù),我們可以建立選擇列表,但是原始的池是不會改變的,所以我們就有機會多次選擇一個相同的項。在這個例子中,我們兩次選擇了元素C

這一過程的統(tǒng)計學含義是:選擇是相互獨立的。沒有任何過去的背景,選擇完全不受之前的選擇的影響,也不會影響未來的選擇。

要明白這一點,讓我們看看圖2.13所示池中的8個元素,每個元素被選中的概率都是1/8??梢钥吹?,我們首先選擇的是元素C。

現(xiàn)在新數(shù)據(jù)集里有了元素C,但是在選擇之后,我們會把這個元素“重置”回原來的數(shù)據(jù)集中,再次查看原始數(shù)據(jù)集時,8個元素仍然全部存在,如果再次進行選擇,每個元素仍有1/8的概率被選中。

這種采樣的一個日常例子是:在庫存充足的咖啡店里點一杯咖啡,比如我們點了一杯香草拿鐵之后,香草拿鐵這個選項也不會從菜單上被刪除,還可供其他顧客選擇。

2.5.2 無放回抽樣

另一種通過隨機選擇去構(gòu)建新數(shù)據(jù)集的方法是:從原始數(shù)據(jù)集中刪除所選擇的元素,并將其放到新數(shù)據(jù)集中。因為沒有進行復制,所以原始數(shù)據(jù)集丟失了一個元素。這種方法稱為無放回抽樣(又稱為SWOR),如圖2.14所示。

圖2.14 無放回抽樣。每從池中移除一個元素,我們就會將其放入所選擇的區(qū)域。因為沒有把它重新放回池中,所以無法再次選擇這一元素

讓我們比較一下SWR與SWOR的含義。首先,在SWOR中,對任何元素的選擇都不能超過一次,因為我們從原始數(shù)據(jù)集中刪除了它。其次,在SWOR中,新數(shù)據(jù)集可以比原來的更小,或者是大小相同,但是不能變得更大。最后,在SWOR中,選擇是相互依賴的。圖2.14中,每個元素第一次被選中的概率為1/8。但是當選擇元素C后,我們沒有用副本替換它,所以如果回到原始數(shù)據(jù)集,就只剩下7個元素可用,即每個元素有1/7的概率被選中。選擇這些元素中的任何一個的概率都增加了,因為可供選擇的元素變少了。

如果再選擇另一個元素,剩下的每個元素就都有1/6的概率被選中,以此類推。在選擇了7個元素后,最后一個元素被選中的概率就有100%。

無放回抽樣的一個常見示例是玩撲克牌游戲,每發(fā)一張牌,它就會從整副牌中“消失”,在重新收回牌或是洗牌之前是無法再發(fā)出的。

2.5.3 做選擇

假設(shè)我們想通過從原始數(shù)據(jù)集中選擇來構(gòu)建一個比原始數(shù)據(jù)集小的新數(shù)據(jù)集,可以采用有放回抽樣和無放回抽樣兩種方式。

與無放回抽樣相比,有放回抽樣可以產(chǎn)生更多可能的新數(shù)據(jù)集,讓我們來看看這一點。假設(shè)原始數(shù)據(jù)集中只有3個對象(A、B和C),而我們需要一個包含兩個對象的新數(shù)據(jù)集。采用無放回抽樣只能得到3種可能的新數(shù)據(jù)集:(A,B)、(A,C)和(B,C);而采用有放回抽樣,不僅可以得到這3個,還可以得到(A,A)、(B,B)和(C,C)。

一般來說,有放回抽樣總是可以為我們提供一組有更多可能性的新數(shù)據(jù)集。還有很多關(guān)于統(tǒng)計特性的有趣差異,但是我們不展開討論。

要記住的重要一點是:“是否放回”會對構(gòu)建新數(shù)據(jù)集產(chǎn)生影響。

主站蜘蛛池模板: 铅山县| 武功县| 辉南县| 永济市| 邓州市| 盐边县| 永登县| 灵台县| 正定县| 庆元县| 景谷| 宽甸| 天津市| 郎溪县| 阳东县| 彭泽县| 通化市| 轮台县| 聊城市| 呼玛县| 磴口县| 高陵县| 安阳县| 灵石县| 广南县| 宝山区| 连平县| 五原县| 绍兴市| 安西县| 岫岩| 浑源县| 钟山县| 丹阳市| 南召县| 广平县| 桦南县| 万州区| 容城县| 叶城县| 澎湖县|