官术网_书友最值得收藏!

2.1.2 常見概率分布

常見的概率分布有連續分布和離散分布兩類,其中連續分布包括均勻分布、正態分布、t分布、卡方分布和F分布等,離散分布包括二項分布、0-1分布、泊松分布等。

(1)均勻分布是指概率的分布是等距的,分為連續型和離散型兩種,可以認為前者是一條等距點構成的曲線,后者是一個個獨立的點。

(2)正態分布即高斯分布,是自然界最常見的一種概率分布,是具有兩個參數μσ2的連續型隨機變量的分布,參數μ是遵從正態分布的隨機變量的均值,參數σ2是此隨機變量的方差,因此正態分布記作N(μ,σ2)。它具有以下特征。

① 集中性:正態曲線的高峰位于正中央,即均值所在的位置。

② 對稱性:正態曲線以均值為中心,左右對稱,曲線兩端不與橫軸相交。

③ 變動性:正態曲線由均值所在處開始,分別向左右兩側逐漸下降。

④ 均值μ決定正態曲線的中心位置,標準差σ決定正態曲線的陡峭程度。σ越小,曲線越陡峭;σ越大,曲線越扁平。

(3)t分布即學生t分布(Student's t-Distribution),用于根據小樣本來估計呈正態分布且方差未知的總體的均值。它的分布曲線形態與自由度df大小有關,自由度df越小,t分布曲線越平坦,曲線中間越低,曲線雙側尾部翹得越高;而自由度 df 越大,t 分布曲線越接近正態分布曲線,當自由度df無窮大時,t分布曲線為標準正態分布曲線。

如果總體方差已知(例如在樣本數量足夠多時),則應該用正態分布來估計總體均值。總體均值是對兩個樣本均值差異進行顯著性測試的t檢驗的基礎。t檢驗改進了Z檢驗,不論樣本數量大小都可應用。因為Z檢驗用在小的樣本集上會產生很大的誤差,所以樣本集很小的情況下一般用t檢驗。

(4)卡方分布(Chi-Square Distribution,X2-Distribution)是指若有k個獨立的標準正態分布變量,則稱其平方和服從自由度為 k 的卡方分布。它是一種特殊的伽馬分布,在假設檢驗和置信區間的計算中應用廣泛。由卡方分布可延伸出皮爾遜卡方檢驗,常用于以下情況。

① 驗證樣本集的某一屬性分布與整體分布之間的擬合程度,例如驗證某校區中男女比例是否符合此學校整體學生的男女比例。

② 兩個隨機變量獨立性驗證,例如人的肥胖與心臟病的關聯性。

(5)F分布(F-Distribution)是一種連續概率分布,但它是一種非對稱分布,有兩個自由度,且位置不可互換,被廣泛應用于似然比率檢驗。

(6)二項分布(Binomial Distribution)是n個獨立的伯努利(是或非)試驗中成功的次數的離散概率分布。實際上,當n=1時,二項分布就是0-1分布,它是統計變量中只有性質不同的兩項群體的概率分布。所謂兩項群體是按兩種不同性質(如硬幣的正面和反面)劃分的統計變量,是二項試驗的結果,兩項分布也是兩個對立事件的概率分布。它的前提條件是事件獨立,單次試驗為相互對立的兩個結果。

(7)0-1分布是n為1的二項分布,指取值是0或者1,只先進行一次事件試驗,該事件發生的概率為p,不發生的概率為1-p

(8)泊松分布(Poisson Distribution)適合于描述單位時間內隨機事件發生的次數的概率分布,例如服務器在一定時間內收到請求的次數、銀行柜臺接待的客戶數、汽車站臺的候客人數、機器出現的故障數、自然災害發生的次數等。

主站蜘蛛池模板: 岑溪市| 罗田县| 沈阳市| 延安市| 浮山县| 苍梧县| 长武县| 夏河县| 兴安盟| 宿松县| 沁水县| 邢台县| 方正县| 修武县| 靖安县| 临沭县| 武陟县| 河津市| 涞源县| 陇西县| 桓仁| 黄大仙区| 安平县| 安西县| 内乡县| 贵定县| 南城县| 贺兰县| 从化市| 内丘县| 上蔡县| 两当县| 常熟市| 桑日县| 南和县| 集贤县| 临湘市| 张北县| 高清| 九江县| 马边|