官术网_书友最值得收藏!

2.3 一些常見(jiàn)的分布

目前,我們已經(jīng)了解了隨機(jī)數(shù)的來(lái)源,以及如何使用隨機(jī)變量從分布中選擇值。現(xiàn)在讓我們來(lái)看看一些流行的分布,這些分布通常用于生成機(jī)器學(xué)習(xí)算法中使用的隨機(jī)數(shù)。

大部分的這些分布都是作為內(nèi)置例程由主要的庫(kù)提供的,因此可以很容易加以指定和使用。

我們用連續(xù)(continuous)的形式來(lái)展示這些分布,而大多數(shù)庫(kù)會(huì)提供分布的連續(xù)和離散兩個(gè)版本,或者可能會(huì)提供一個(gè)通用的例程,讓我們可以根據(jù)需要將任何連續(xù)的分布轉(zhuǎn)換為離散版本。

2.3.1 均勻分布

圖2.6所示為均勻分布(uniform distribution)的例子。基本的均勻分布是:除了0和1之間,其他區(qū)間的值都是0,0~1的值是1。0和1這兩個(gè)數(shù)字正好在兩個(gè)定義交界的地方,這里我們把0和1處的值都設(shè)為1。

圖2.6 一個(gè)均勻分布的例子。在這個(gè)版本中,0~1的輸入(包括0和1)所產(chǎn)生的輸出都是1, 而其他輸入產(chǎn)生的輸出都是0。按照慣例,圖中不可見(jiàn)的部分被假定為圖兩端的輸入所顯示的值,因此圖中所示區(qū)域的右側(cè)和左側(cè)的輸入處處為0

在這個(gè)圖中,看起來(lái)0處有兩個(gè)值,1處也有兩個(gè)值,但其實(shí)不是這樣的,我們的慣例是:非實(shí)心的圈(如下方線上的圈)表示“這一點(diǎn)不是直線的一部分”,而實(shí)心圈(如上方線上的圈)表示“這一點(diǎn)是直線的一部分”。因此,在輸入值0和1處,圖形的輸出是1。

這是一個(gè)常見(jiàn)的定義,但是有些方式會(huì)使得其中一個(gè)或者兩個(gè)輸出為0。這通常需要做一些檢查。

這種分布有兩個(gè)基本特性:首先,我們只能得到0~1的值,因?yàn)樗衅渌档母怕识际?;其次,0~1的每個(gè)值都是等可能的,我們得到0.25、0.33或0.793718的概率是一樣的。

我們說(shuō)圖2.6所示的值在0~1的范圍內(nèi)是分布均勻的,或者說(shuō)它們是常數(shù)(constant),抑或說(shuō)是平面(flat)的。這告訴我們,這個(gè)范圍內(nèi)的所有值是等概率的。我們也說(shuō)它們有限的(finite),意思是所有非零值在某個(gè)特定的范圍內(nèi)(即可以肯定地說(shuō)0和1是它能返回的最小值和最大值)。

通常,創(chuàng)建均勻分布的庫(kù)函數(shù)會(huì)允許我們?nèi)ミx擇非零區(qū)域開(kāi)始和結(jié)束的地方,而不是固定在0和1。除了默認(rèn)的0~1的選項(xiàng),最受歡迎的應(yīng)該是?1~1,庫(kù)會(huì)對(duì)一些細(xì)節(jié)進(jìn)行處理,比如調(diào)整函數(shù)的高度來(lái)使其下方的面積始終為1(這是將任何圖表轉(zhuǎn)換為概率分布的條件)。

2.3.2 正態(tài)分布

在均勻分布之后,下一個(gè)最流行的分布可能是正態(tài)分布(normal distribution),也叫作高斯分布(Gaussian distribution),或者簡(jiǎn)單地稱其為鐘形曲線(bell curve)。與均勻分布不同,正態(tài)分布的曲線是平滑的,沒(méi)有尖銳的拐角或者突然的跳躍。圖2.7顯示了一些典型的正態(tài)分布。

圖2.7 一些典型的正態(tài)分布。其基本形狀可以向左或向右移動(dòng),也可以在高低間進(jìn)行縮放,抑或?qū)⑵溥M(jìn)行拉伸或壓縮。總之,經(jīng)過(guò)這些變換后,它也仍然是正態(tài)分布的。(a)典型正態(tài)分布;(b)正態(tài)分布的中心移動(dòng)到1;(c)正態(tài)分布的中心移動(dòng)到?1,同時(shí)形狀變得更加狹窄,為了使曲線下方的面積保持在1,庫(kù)會(huì)自動(dòng)調(diào)整圖形的垂直比例;(d)正態(tài)分布的中心移動(dòng)到?1,同時(shí)形狀變得更加寬大,同樣,為了使曲線下方的面積保持在1,庫(kù)會(huì)自動(dòng)調(diào)整圖形的垂直比例,因?yàn)閳D形更寬了,所以高度降低

圖2.7中的4條曲線形狀基本相同,形狀的變化只是由曲線的水平移動(dòng)或是水平縮放(即拉伸或壓縮)引起的。這種水平縮放使得庫(kù)自動(dòng)地在垂直方向縮放曲線,因此曲線下方的面積加起來(lái)始終是1。

其實(shí)垂直縮放對(duì)我們來(lái)說(shuō)并不重要,因?yàn)槲覀冎魂P(guān)心樣本的輸出。圖2.8顯示了我們從每個(gè)分布中提取到的一些有代表性的樣本。可以看到,它們聚集在分布的值比較高的地方(也就是說(shuō),得到一個(gè)有著這些值的樣本的概率比較高)較多,而在分布的值比較低的地方(得到一個(gè)有著這些值的樣本的概率比較低)較少。這些點(diǎn)(代表樣本值)在垂直方向的上下起伏是沒(méi)有意義的,只是為了便于觀察。

對(duì)于正態(tài)分布來(lái)說(shuō),除了平滑隆起的區(qū)域,其他位置都近乎為0。不過(guò),當(dāng)接近凸起的兩端時(shí),其值會(huì)越來(lái)越接近于0,但從未達(dá)到0。所以我們說(shuō),這個(gè)分布的寬度是無(wú)限的(infinite)。在實(shí)際操作中,我們有時(shí)會(huì)將偏離中心點(diǎn)一定距離的值夾斷(clamp),并假設(shè)超出該距離的部分為0,從而得到一個(gè)有限的分布。

正態(tài)分布在很多領(lǐng)域(包括機(jī)器學(xué)習(xí))都很流行,因?yàn)閺纳飳W(xué)到天氣的大量實(shí)際測(cè)量的觀察,人們發(fā)現(xiàn)它們的返回值都遵循正態(tài)分布。同時(shí),正態(tài)分布的數(shù)學(xué)性質(zhì)在很廣泛的領(lǐng)域都很容易使用。

使用符合正態(tài)分布的隨機(jī)變量產(chǎn)生的值被稱為正態(tài)分布集(normally distributed),有時(shí)也被稱為正態(tài)偏差(normal deviation)。我們也說(shuō)它們擬合(fit)或者遵循正態(tài)分布。

圖2.8 每個(gè)點(diǎn)的水平位置展示了從各個(gè)分布中提取到的樣本值,點(diǎn)的垂直位置沒(méi)有什么特殊含義,只是為了讓它們更容易區(qū)分

每個(gè)正態(tài)分布由兩個(gè)數(shù)字定義:均值(凸起的中心的位置)和標(biāo)準(zhǔn)差(standard deviation)(形狀的水平拉伸或壓縮)。

均值告訴我們凸起的中心的位置,圖2.9顯示了圖2.7中的4個(gè)正態(tài)分布以及它們的平均值。正態(tài)分布一個(gè)很好的性質(zhì)是:它的均值同時(shí)也是中位數(shù)和眾數(shù)。

圖2.9 正態(tài)分布的均值是凸起的中心的位置,這里用豎線表示

標(biāo)準(zhǔn)差則是一個(gè)數(shù)字,通常由小寫希臘字母σ(sigma)表示,用于表示凸起的寬度。想象一下從凸起的中心開(kāi)始對(duì)稱地向外移動(dòng),直到囊括曲線下方68%的面積,那么從凸起中心到該區(qū)域的任意一端的距離就是標(biāo)準(zhǔn)差,所以“標(biāo)準(zhǔn)差”只是一個(gè)距離。圖2.10顯示了4個(gè)正態(tài)分布,其中一個(gè)標(biāo)準(zhǔn)差是用中心到陰影區(qū)域的任意邊的距離表示的。

圖2.10 標(biāo)準(zhǔn)差是衡量一個(gè)正態(tài)分布的“拉伸”程度的指標(biāo),陰影區(qū)域顯示的是曲線下方的面積。陰影部分約占總面積的68%,從均值(或者說(shuō)中心)到陰影區(qū)域任意邊的距離就是正態(tài)分布的標(biāo)準(zhǔn)差

如果再對(duì)稱地從中心向外移動(dòng)一個(gè)標(biāo)準(zhǔn)差,就會(huì)將曲線下約95%的面積封閉起來(lái),再對(duì)稱地從中心向外移動(dòng)一個(gè)標(biāo)準(zhǔn)差,就會(huì)將曲線下約99.7%的面積封閉起來(lái),如圖2.11所示。因?yàn)槭鞘褂玫臉?biāo)準(zhǔn)差σ,所以這個(gè)性質(zhì)有時(shí)會(huì)被稱為3σ法則,有時(shí)也被稱為68-95-99.7法則

圖2.11 標(biāo)準(zhǔn)差可以幫助我們求出事件發(fā)生的概率。沿著橫軸距離均值一個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)的點(diǎn)(如果均值是0,那么范圍就是(?σσ))占所有值的68%左右,而兩個(gè)標(biāo)準(zhǔn)差范圍內(nèi)的點(diǎn)則占所有值的95%左右,3個(gè)標(biāo)準(zhǔn)差范圍內(nèi)的點(diǎn)占所有值的99.7%左右

換句話說(shuō),如果由正態(tài)分布繪出了1000個(gè)樣本,就有大約680個(gè)樣本將分布在距離均值不超過(guò)一個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)(或者是在?σσ的范圍內(nèi)),大約950個(gè)樣本將分布在距離均值不超過(guò)兩個(gè)標(biāo)準(zhǔn)差的內(nèi)(或者是在?2σ~2σ的范圍內(nèi)),大約997個(gè)樣本將分布在距離均值不超過(guò)3個(gè)標(biāo)準(zhǔn)差的內(nèi)(或者是在?3σ~3σ的范圍內(nèi))。

總之,均值顯示了曲線的中心位置,而標(biāo)準(zhǔn)差顯示了曲線的伸展情況。標(biāo)準(zhǔn)差越大,曲線就會(huì)越寬,因?yàn)?8%的截?cái)嗑嚯x會(huì)變得更遠(yuǎn)。

有時(shí)人們用一個(gè)不一樣但與之相關(guān)的值來(lái)代替標(biāo)準(zhǔn)差,這個(gè)值稱為方差(variance)。方差就是標(biāo)準(zhǔn)差自身的平方,有時(shí)在計(jì)算中這個(gè)值使用起來(lái)會(huì)更方便。

正態(tài)分布的吸引力不僅在于它的數(shù)學(xué)性質(zhì),還在于它自然地描述了許多真實(shí)世界的統(tǒng)計(jì)數(shù)據(jù)。如果我們測(cè)量一些地區(qū)成年男性的身高、向日葵的大小抑或果蠅的壽命,就會(huì)發(fā)現(xiàn)這些數(shù)據(jù)都趨于正態(tài)分布。

2.3.3 伯努利分布

另一個(gè)有用的特殊分布稱為伯努利分布(Bernoulli distribution),這個(gè)離散分布只返回兩個(gè)可能的值:0和1。伯努利分布的一個(gè)常見(jiàn)例子是拋擲硬幣得到正反面的分布。

我們用字母p來(lái)描述得到1的概率。由于兩個(gè)概率相加必須得1(忽略奇怪的著陸情況,硬幣必須正面或反面著陸),這意味著返回0的概率是1?p

圖2.12直觀地顯示了拋擲一枚質(zhì)地均勻的硬幣和一枚質(zhì)地不均勻的硬幣的情況。

(a)                (b)

圖2.12 伯努利分布告訴我們得到0或1的概率。(a)在每次拋擲一枚質(zhì)地均勻的硬幣時(shí),獲得正面或反面的概率相等;(b)拋擲一枚質(zhì)地不均勻的硬幣出現(xiàn)反面的概率是70%,出現(xiàn)正面的概率是30%

我們可以把這兩個(gè)值標(biāo)記為0和1(或者是正面和反面)以外的東西,例如,如果我們?cè)诳凑掌鼈兙涂赡苁且粡堌埖恼掌鸵粡埐皇秦埖恼掌?/p>

如果我們畫出了大量的值并找到它們的均值,那么這很可能就是該分布的均值。伯努利分布的均值是p。關(guān)于伯努利分布的眾數(shù)和中位數(shù)的描述有點(diǎn)麻煩,此處不再贅述。

伯努利分布似乎有點(diǎn)過(guò)于簡(jiǎn)單了,因?yàn)樗枋龅氖且环N簡(jiǎn)單的情況。它的價(jià)值在于:它給了我們一種方法來(lái)表示得到一個(gè)分布的兩個(gè)值中任意一個(gè)的概率,所以使用了與本節(jié)中其他分布相同的形式來(lái)表達(dá)。這意味著我們可以使用與處理復(fù)雜分布時(shí)相同的方程和代碼來(lái)處理這種更簡(jiǎn)單的情況。

2.3.4 多項(xiàng)式分布

伯努利分布只返回兩個(gè)可能值中的一個(gè),但是假設(shè)我們正在做一個(gè)實(shí)驗(yàn),需要從更多的數(shù)字(或者說(shuō)更多的可能性)中返回一個(gè)呢?例如,我們不再進(jìn)行只可能出現(xiàn)正面或反面的拋擲硬幣,而是改為拋擲一個(gè)20面的骰子,就會(huì)得到20個(gè)值中的任意一個(gè)。

為了模擬拋擲骰子的結(jié)果,隨機(jī)變量需要返回1~20中的一個(gè)數(shù)字。在這種情況下,構(gòu)建一個(gè)列表是很有效的。列表中除了我們?nèi)〕龅哪且豁?xiàng)(它被設(shè)為1),其他項(xiàng)都為0。當(dāng)我們構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)來(lái)將輸入分為不同的類別時(shí),構(gòu)建列表會(huì)非常有用,例如描述照片中出現(xiàn)的是50種不同動(dòng)物中的哪一種。

下面我們來(lái)演示這個(gè)想法。假設(shè)我們要從5個(gè)值中進(jìn)行選擇,于是將它們標(biāo)記為1、2、3、4和5。如果要返回的是4,就會(huì)返回一個(gè)包含5個(gè)數(shù)字的列表,除了第4個(gè)位置的1,其他位置的數(shù)字都是0,這個(gè)列表是“0,0,0,1,0”。

每當(dāng)要從這個(gè)隨機(jī)變量中抽取一個(gè)值時(shí),我們就會(huì)得到一個(gè)包含4個(gè)0和1個(gè)1的列表。每個(gè)位置是否為1的概率是由選項(xiàng)1~5中被選擇的概率給出的。

這個(gè)分布的名稱是一個(gè)合成詞(或者說(shuō)是兩個(gè)詞的混合),因?yàn)檫@是對(duì)兩種輸出的伯努利分布的推廣,將其推廣為多項(xiàng)輸出。我們可以稱之為“多項(xiàng)式伯努利分布”,但是若把這些詞混在一起,就稱之為多項(xiàng)式分布(multinoulli distribution),有時(shí)也簡(jiǎn)單地稱之為類別分布(categorical distribution)。

我們可以使用多項(xiàng)式分布來(lái)猜測(cè)生日,奇怪的是,所有生日的概率并不都是一樣的,至少在美國(guó)2000年前后的10年內(nèi)是這樣的[Stiles16]。我們可以用一個(gè)多項(xiàng)式分布表示365個(gè)可能的生日的概率。如果我們從這個(gè)分布中抽取一個(gè)隨機(jī)變量,就會(huì)得到一個(gè)擁有365個(gè)值的列表,除了一個(gè)1,其他的都是0。如果我們一遍又一遍地這樣做,1就會(huì)更頻繁地出現(xiàn)在更有可能的出生日期那里。

2.3.5 期望值

如果我們從任意的概率分布中選擇一個(gè)值,然后選擇另一個(gè),之后再選擇一個(gè),隨著時(shí)間的推移,我們就能構(gòu)建一個(gè)包含很多值的列表。

如果這些值是數(shù)字,那么它們的平均值就稱為期望值(expected value)。注意,期望值可能不是從分布中提取的值!例如,如果1、3、5、7都是等可能的,那么我們對(duì)于這些將要提取的隨機(jī)變量的期望值就是(1+3+5+7)/4(即4),這個(gè)值我們永遠(yuǎn)無(wú)法從分布中得到。

主站蜘蛛池模板: 荔波县| 日土县| 开封市| 日土县| 白山市| 英山县| 调兵山市| 宁陕县| 满洲里市| 鄂温| 鄂伦春自治旗| 冀州市| 宁波市| 萨嘎县| 彰化县| 克东县| 枝江市| 宜章县| 三台县| 蓝田县| 大港区| 太谷县| 安西县| 卢龙县| 托里县| 石楼县| 巨鹿县| 抚宁县| 奇台县| 琼海市| 东至县| 安图县| 玛沁县| 吴旗县| 那坡县| 莎车县| 衡南县| 庄河市| 汤阴县| 赫章县| 平顺县|