官术网_书友最值得收藏!

第三節 概率抽樣

概率抽樣就是使總體中每一個體都有一個已知不為零的被選機會進入樣本。概率抽樣分為兩大類:等概率抽樣和不等概率抽樣。前者總體中每一個體被選機會相等,后者每一個體被選中機會不等。等概率抽樣又稱隨機抽樣。概率抽樣是以概率理論為依據,通過隨機化的機械操作程序取得樣本,故而能避免抽樣過程中的人為因素的影響,保證樣本的代表性。對于不等概率抽樣,可以采用某些加權的方法對不相等的概率作調整。在以各種方式抽取的樣本中,隨機樣本的代表性最高。雖然隨機樣本不會完全與總體一致,但它能確定抽樣誤差,能正確地說出樣本的統計值在多大程度上適合于總體,像所有的科學方法一樣,它允許通過對誤差來源的分類和客觀評價進行積累改進。

一、簡單隨機抽樣(純隨機抽樣)

簡單隨機抽樣是最基本的概率抽樣,最直觀地體現了抽樣的基本原理,它是其他抽樣方法的基礎,其他概率抽樣都可以看成是由它派生而來的。簡單隨機抽樣是一種特殊的等概率抽樣方法,總體中每一個體均有同等被選機會,而且樣本中每一個體是被單獨地選出的,它是一種元素抽樣。簡單隨機抽樣分為重復抽樣和不重復抽樣兩類。在重復抽樣中,已被選中的個體仍放回總體中,因此在同一樣本中,某一個體就有可能不止一次地出現。在不重復抽樣中,被選為樣本的個體不再放回總體,因此,在同一個樣本中,每一個體只能出現一次。根據抽樣理論,重復抽樣比較完善。不過,當總體足夠大時,不重復抽樣結果與重復抽樣相差很小,所以在大規模社會調查中,通常使用不重復抽樣。

簡單隨機抽樣對總體中所有個體按完全符合隨機原則的特定方法抽取樣本,即抽樣時不進行任何分組、排列,使總體中任何個體都同樣有被抽取的平等機會,即對總體中任何分子一視同仁。由此可見,為了保證總體中每一個體進入樣本的機會均等,首先要保證抽樣框的充分性,如果某些分子被重復列入抽樣框,則其進入樣本的機會便增加了;如果有些個體被漏掉了,它們就沒有進入樣本的機會,這樣一來就破壞了隨機原則。

常用的拋硬幣、抽簽等方法都是簡單隨機抽樣。但社會調查中的簡單隨機抽樣通常是使用隨機數字表進行。隨機數字表是由數字0—9組成的表,由電子計算機編制而成。表7.1是斯內伯克和科克倫編制、1969年出版的隨機數字表中的由一千個隨機數字組成的表的片斷。下面我們舉一例說明如何用隨機數字表進行抽樣。

表7.1 一千個隨機數字

假定研究總體N=528,即總體中有528個個體,我們欲抽選一個由10個個體組成的樣本,因為N是個三位數,因此首先從表7.1中的50列數字中隨機抽取三列,例如我們選中了第25—27列,然后由上而下在這三列中選出頭10個001到528之間的不同的數(當遇到的是000和大于528的數時均跳過),它們是036,509,364,417,348,127,149,186,290,162。最后這兩個數290和162是跳到第30—32列取得的,因為25—27列中不含有001—528之間的數字了。當然在開始從第25—27列抽樣時,不一定非從這三列的第一行數字開始,而可以從任意一行開始,例如從第七行開始,然后順序往下找,直到抽夠10個數字為止。如果從這三列抽出的符合要求的數字不足時,就要另外隨機抽取三列,從中繼續抽取。如果N是四位數字,則抽樣時首先從表中的50列中抽取四列,再依上法抽出樣本。

簡單隨機抽樣是概率抽樣的理想類型,沒有偏見,簡單易行,且在從隨機樣本的抽取到對總體進行推斷時,有一套健全的規則。但是當總體所含個體數目太多時,采用這種抽樣方式不僅費時甚多,工作繁雜且費用太高,例如欲從北京市全體家庭中抽取2000戶作樣本,若采用簡單隨機抽樣方法,需將全市近200萬以上家庭全部登記造冊,制成抽樣框,僅此一項,就成為一件巨大的工作。此外,這種抽樣方法,在構成總體的個體差異不大時,用之比較有效,而在總體異質性較高時,誤差較大。

二、分層抽樣

所謂分層抽樣就是先將總體依照一種或幾種特征分為幾個子總體(類、群),每一個子總體稱為一層,然后從每一層中隨機抽取一個子樣本,將它們合在一起,即為總體的樣本,稱為分層樣本。由于社會研究對象的復雜性和異質性程度較高,有必要將它們按不同特征分為不同類型(或層),因此,分層抽樣在社會研究中獲得廣泛的應用。分層抽樣的優點是:

1.當一個總體其內部分層明顯時,分層抽樣能夠克服簡單隨機抽樣的缺點。由于它是按群體的特征分布從不同層獲得盡可能均衡的樣本數,使樣本與總體更相似,從而改善了樣本的代表性。例如,在某個干部總體中,黨的干部占總體的20%,行政管理干部占25%,技術干部占40%,其他各類專業干部占15%。按這四個干部類別(層)進行分層抽樣,使樣本中各類干部所占的比例也分別為20%,25%,40%和15%。這時樣本似乎成了總體的一個“縮影”。

2.分層抽樣可以提高總體參數估計值的精確度。由于它可以將一個內部差異很大的總體分成一些內部比較相似的子總體,從每一子總體內抽出一個小樣本就能較好地代表總體,因此,在樣本數相同的情況下,分層抽樣比簡單隨機抽樣的精確度高;或在同樣的精確度要求下,分層抽樣的樣本規模較小。

3.有些研究不僅要了解總體的情形,而且還要了解某些類別的情形,分層抽樣可以同時滿足這兩個要求,因為我們可以將每一類(層)看作一個總體。此外,對總體的不同部分還可以采用不同的抽樣方法。例如,對居住在各社會機構(旅館、監獄、醫院)的人和居住在一般家庭中的人,對流動人口和固定人口等,采用不同的處理方式,這時分層抽樣便顯示出其優越性。

4.便于行政管理。因一層可以看作一個總體,因此每層可由專人進行管理。

按各層子樣本容量的確定方式,分層抽樣可分為按比例分層抽樣和非比例分層抽樣。前者要求各層的子樣本在總體的樣本中所占比例與本層在總體中所占比例相同。例如某中學有1000名學生,其中男600人,女400人,欲采用分層抽樣從中抽取100人的一個樣本,則其中男應有60人,女應有40人。有時我們希望了解的是一些層所代表的子總體的情況,而不是總體情況,例如我們想了解某高校本科生、碩士研究生與博士研究生對職業的選擇趨向。全校共有學生1000人,三者所占比例為6∶3∶1,如果我們按比例抽選一個60人的樣本,則博士生僅占6人,數量太少,這時我們就要使用異比分層,例如每組均抽20人,這就使博士生的被抽機會三倍于碩士生、六倍于本科生,是一個非等概抽樣,為此在作統計推論時,要進行加權處理。

應當以抽樣單位的何種特性作為分層的標準,也就是說,應選用什么樣的變量作為分層變量呢?一般來說,用以分層的理想變量是在調查中要加以測量的變量,例如調查某廠職工購買書籍的平均冊數,最好的分類變量是年購書總冊數。將職工分為買5本以下,5—10本,10—15本,15—20本,20本以上等五個層。經數學證明,這樣選擇分層變量,樣本精確度可提高很多。然而實際上是不可能按這樣的辦法分層的,因為在調查之前我們無法知道每個職工的購書數量。因此,研究者一般是選擇與調查中欲測量變量高度相關的變量,即對所要研究的變量有很大影響的因素作為分層變量。如在上例中,可按“教育水平”將職工分層,因為這一變量對職工購書量有很大影響。從理論上來說,在確定分層變量時應考慮到所有影響因素,但實際上卻往往缺乏有關的詳細資料,因此通常是主觀判定哪個或哪幾個因素與欲測變量高度相關,當然,如果選擇的分層變量與欲測變量很少相關,那么,樣本的精確度就會降低。選擇分層變量另一個原則是具有實用性,有時層是自然形成的,例如當研究對象具有較大的地理差異時,作為分層標準的可以是不同的地理區域,如不同國家或不同省市。又如在以個人為抽樣單位時,較重要和普遍的分層標準有性別、年齡、教育、職業等。

除選擇適當的分層變量外,提高分層樣本的精確度還必須力求符合分層的原則,即盡可能使各層內部保持一致,以簡化總體的構造,使各層之間具有明顯的差異性,以便包括總體的各種特性。此外,樣本的精確度還與分層數目及樣本大小密切相關,分層越細,樣本越大,則樣本的代表性越好。

分層抽樣適用于總體內個體數目較多,結構較復雜,內部差異較大的情況。

三、系統抽樣(或等距抽樣,機械抽樣)

系統抽樣是簡單隨機抽樣的一個變種,其具體做法是:

(1)將總體的所有個體前后排列起來。

(2)計算抽樣距離。抽樣距離是由總體大小和樣本大小決定的,假設總體所含個體數為N,樣本所含個體數為n,則抽樣距離應為

(3)在頭K個個體中,用完全隨機的方式抽取一個個體,設其所在位置的序號是k。

(4)自k開始,每隔K個個體抽取一個個體,即陸續抽取的個體所在位置序號為k, k+K, k+2K+……+k+(n-1)K。例如,設北京大學有12,000名學生,欲了解其每月伙食費情況,可從中抽查200名學生。則這時的抽樣距離。假設用隨機抽樣法抽出的第一位學生是第12號學生,則第二位應是第72號學生,第三位應是132號,依次類推,直至抽足200名。若抽到最后仍不足所需樣本時,可再回頭累積抽取。如本例12,000名同學抽完后還差一位同學,即第199位學生的號碼為11,952號,再加60則為12,012號,這時從頭累加,應為12號,但12號已被抽出,因此遞推選第13號為第200位訪問對象。

一般說來,與簡單隨機抽樣一樣,等距抽樣也要收集總體的名單,將總體中的所有個體進行編號。不同的是,它不需多次使用隨機數字表抽取個體,而只需按間隔等距抽取即可。此外,等距抽樣在某種情況下可不必像簡單隨機抽樣那樣編列個體的號碼,只要總體的排列次序是隨機的,就可依已排好的次序,從中等距抽取。例如抽樣個體是登記在同樣大小的卡片上并將其放在盒子中,如戶籍卡片,則可用一把尺子抽樣,比如可每隔一寸抽一張卡片。因此,與簡單隨機抽樣相比,系統抽樣易于實施,工作量較少。

系統抽樣的另一優點是樣本在總體中的分布更平均,故而抽樣誤差小于或至多等于簡單隨機抽樣,即較其更精確。事實上,它亦可以看成是分層抽樣,它等于將總體分成幾層,每K個分子為一層,也就是說可以看作是每層只抽一個個體的分層抽樣。兩者不同的是,系統抽樣的樣本個體在每一層的相對應位置上,而分層抽樣則是由每層隨機抽取的,兩者情形請見圖7.1。系統樣本在總體中分布得更均勻,這一點使等距抽樣的精確度較分層抽樣更好。

圖7.1 分層抽樣與等距抽樣

系統抽樣是以總體的隨機排列為前提的,如果總體的排列出現有規律的分布時,就會使系統抽樣產生很大誤差,降低樣本的代表性。例如,部隊的名單一般是以班為單位排列的,10人一班,第一名是班長,最后一名是副班長。若抽樣距離也是10時,則樣本或均由(正、副)班長組成,或均由戰士組成,失去了代表性。因此,在使用系統抽樣時一定要認真考察總體的排列情形和抽樣距離。如原有的排列次序有可能導致抽樣失敗的話,就應當打亂原排列次序或改用其他抽樣方法。

系統抽樣作為簡單隨機抽樣的變種,與簡單隨機抽樣一樣,最適用于同質性較高的群體。當總體內不同類別之間所含個體的數目相差過于懸殊時,采用此法樣本的代表性可能較差。例如工廠內工人多、技術人員少,如果用等距抽樣可能很少抽中或完全沒有抽中技術人員,這種情況下一般采用分層抽樣。它通常被用于復雜樣本的最后抽樣階段。

四、整群抽樣(聚類抽樣)

整群抽樣是將總體按照某種標準劃分為一些子群體,每一個子群為一個抽樣單位,用隨機的方法從中抽若干子群,將抽出的子群中所有個體合起來作為總體的樣本。

整群抽樣與分層抽樣有相似之處,即它們在第一步都是根據某種標準將總體分為一些小群,但兩者的抽樣方式不同。在分層抽樣中所有子群均要抽取一個子樣本,作為總體樣本的一部分,即總體樣本在各層中均有分布。而整群抽樣則不然,它是抽取若干子群并將抽出子群的全部個體合起來作為樣本,因此,總體樣本分布在部分子群中。由于抽樣方式的不同,導致兩者間劃分子群的原則也不同。在分層抽樣中,層的劃分依據的是層之間異質性高,層內則盡可能同質的原則。整群抽樣因僅抽取某幾個子群作為整體的代表,如果子群間差異顯著,且每個子群內同質性很高,那么這種情況下抽出的幾個子群顯然無法代表總體。例如要調查某工廠職工的平均收入,將工人按照工資級別(1—8級)分為8個子群,用整群抽樣抽取其中幾個子群,假如抽到1級、4級、5級三個子群,顯然這三級工人的平均工資無法代表全廠工人的收入水平。因此,整群抽樣的分群原則應與分層抽樣不同,它是使得群間異質性低,群內異質性高,因此,分層抽樣適用于界質分明的總體,而整群抽樣適用于界質不清的總體。

整群抽樣的優點在于:(1)它可以通過轉換抽樣單位擴大抽樣的應用范圍;(2)它可節省人、財、物力。如前所述,抽樣要求有一份以總體所有個體排列的清單,即抽樣框,但許多調查中往往因抽樣單位的選擇而無法得到總體的所有個體的可靠名單,有時即使可以得到這樣一份名單,所需費用也十分昂貴,這就限制了抽樣的應用范圍。例如我們需從一個幾十萬人口的城市里以個人為抽樣單位進行抽樣,就需要有一份將這幾十萬人口排列出來的清單,這在實際上是極難做到的。在這種情況下,使用整群抽樣獲得抽樣框就容易得多,例如在城市中可以以居民委員會作為抽樣單位制作抽樣框,這顯然要比以個人為抽樣單位制作抽樣框現實和容易得多。整群抽樣通過將抽樣單位由個人轉換成群體,使由簡單隨機抽樣和分層抽樣所不能進行的抽樣調查成為可能,這就大大地擴大了抽樣的應用范圍。此外,即使有總體的抽樣框,為節約人力費用,也常常采用整群抽樣。

整群抽樣的最大缺點是樣本分布不均勻,樣本的代表性較差。因此與其他抽樣方法相比,在樣本數相同時,其抽樣誤差較大。例如一個容量為800的整群樣本,在效率上可能約與一個容量500的簡單隨機樣本相等。特別要注意的是分析整群樣本的資料,如抽樣誤差、統計推斷、假設檢驗要比前面幾種抽樣方法復雜。盡管有這些局限性,但由于實施起來比較方便,而且還可以節約人、財、物力,因此在大規模、大范圍的調查中,仍常常采用這種抽樣方法。例如,當樣本的大小一定時,對一個包含20個街道的調查要比只在一個街道對所有居民戶進行調查困難得多。當然,前者的樣本精確度要比后者高。在權衡調查費用和樣本精確度后,研究者往往會選用整群抽樣。

整群抽樣分為等規模整群抽樣和不等規模整群抽樣,前者總體內所有的群規模都相等,而后者總體內各群大小不一。在社會調查中一般遇到的是后一種情況,在這種情況下,往往出現樣本規模隨機變動的問題。例如某總體含有四個群,人數分別為30、50、15、5,從中抽取兩個群作樣本,則樣本規模可能是80人、45人、35人、65人、55人和20人等六種情況。這種不確定性會給樣本設計時費用與精度的預算及實地調查工作帶來困難,同時還會產生抽樣偏差。為了解決這個問題,往往采取子抽樣的方法,即從抽出的樣本群中再抽一次樣,得到所需樣本。

整群抽樣的樣本群數應如何選擇呢?例如,在一個城市的20個街道中應抽選幾個街道呢?若總體所含子群總數較少,所抽取的樣本群數也必然較少,這樣會導致樣本過于集中,有可能降低樣本代表性。在理論上雖然可以通過增加樣本群數來解決,但這會導致樣本群數接近子群總數。這無異于總體調查,因而喪失了分群的優越性。另一種方法是增加子群總數,即減少每群所含個體數,這時便可抽取較多子群作為樣本,而不增加樣本個體數。但是樣本群數的增加,會使樣本分布范圍擴大,這可能導致整群抽樣成本低的優點的喪失。一般來說,樣本群數占子群數總數的比例應當與樣本數占總體的比例大致相當,但當這種抽樣無法保證樣本代表性時,則應考慮多階段抽樣。

五、多階段抽樣(多級抽樣)

在上述整群抽樣中,當子群數或子群內部個體數目較多,彼此間的差異不太大時,常常采用更加經濟的方法,即不將樣本子群中的所有個體作為樣本,而是再從中用前述各種隨機抽樣的方法抽取樣本,因最終樣本的獲得經過兩次抽樣,我們稱其為二階段整群抽樣,同樣可作三階段、四階段……即多階段整群抽樣。例如,我們要進行一次全國城市居民家庭平均收入水平的調查,可先將城市作為抽樣單位進行第一階段抽樣,選出一部分城市。然后再以居民委員會為抽樣單位,從所選出的城市中抽取一部分街道,這是第二階段抽樣。最后以家庭為抽樣單位作第三階段抽樣,即以家庭為抽樣單位,從已選出的街道中隨意抽取家庭樣本。

對于群體規模不等的多階段整群抽樣,通常使用概率比例抽樣法。所謂概率比例抽樣法,是根據每一群的規模分配樣本容量。下面我們以二階段整群抽樣為例來說明使用概率比例抽樣的原理及方法。

在將總體劃分成子群時,每個子群中個體的含量常常不同,在這種情況下,二階段抽樣由于第一次抽取子群大小不同,只有在第二階段抽樣時采取措施,才能使總體中每個分子具有同等進入樣本的概率。例如,參見福武直:《社會調查方法》,湖南大學出版社1986年版。某市有23個區共714萬人,欲從中抽取1000人的樣本。首先將區作為初級抽樣單位,每區人數不等,將每區人數的號碼范圍列出,東區是1—120,000號,西區是120,000—290,000號,南區是……一直排到7,140,000號,如下表:

從這714萬個號碼中用隨機數字表確定10個號碼,則這10個號碼所落入的區即為調查區。例如抽中340,000號,它落在南區,則南區就為調查區,從這10個調查區中,每區再隨機抽取100人就構成最終樣本。這樣做,人口多的地區在第一次抽樣中被抽中的概率高,但由于所有10個被抽中的區在第二次抽樣時不論人口多少均抽100人,所以,人口多的區的居民在自己的區成為調查區后,自己被抽中的概率都趨于相等。例如:

在進行大規模區域調查時,如果抽樣單位只有一級且與調查對象的單位一致,例如在全國范圍內進行以個人為調查對象的抽樣調查,若抽樣單位也是個人,則編制抽樣框將極為困難,而且樣本的分布極其分散,所需調查費用與人力甚巨。多階段抽樣通過采用由高級抽樣單位過渡到低級抽樣單位的方法,解決了低級抽樣單位不易獲得的抽樣框的問題,并且可以使樣本的分布較為集中,從而大大降低調查所費人、財、物力。此外,多階段抽樣由于在各階段抽樣時可根據具體情況靈活選用不同的抽樣方法,故能夠綜合各種抽樣方法的優點,提高樣本質量。因此,它特別適用于調查范圍大、單位多、情況復雜的調查對象。多階段抽樣由于每階段抽樣都會產生誤差,因此經多階段抽樣得到的樣本的誤差也相應增加,這是它的不足。

主站蜘蛛池模板: 石台县| 醴陵市| 阜南县| 兴仁县| 南平市| 宁远县| 四会市| 湖州市| 汾西县| 喀喇| 阜新市| 炎陵县| 淮南市| 白城市| 盖州市| 田阳县| 健康| 宜州市| 阳高县| 当雄县| 衡东县| 利辛县| 枣强县| 汉源县| 镇巴县| 岳阳市| 高唐县| 长汀县| 白玉县| 乌审旗| 沙河市| 西林县| 大同县| 靖西县| 阆中市| 拜城县| 门源| 连云港市| 延边| 会宁县| 阿图什市|