官术网_书友最值得收藏!

1.1 統計學背景知識

1.1.1 統計學概論

統計學是通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了數學及其他學科大量的專業知識,其應用范圍幾乎覆蓋了社會科學和自然科學的各個領域。

統計學是一門很古老的科學,一般認為其學理研究始于古希臘的亞里士多德時代,迄今已有兩千三百多年的歷史。它起源于研究社會經濟問題,在兩千多年的發展過程中,統計學至少經歷了“城邦政情”“政治算數”和“統計分析科學”三個發展階段。所謂“數理統計”,并非獨立于統計學的新學科,確切地說,它是統計學在第三個發展階段所形成的所有收集和分析數據的新方法的一個綜合性名詞。概率論是數理統計方法的理論基礎,但是它不屬于統計學的范疇,而是屬于數學的范疇。

一般將統計學分為描述統計學和推斷統計學兩大類。描述統計學的任務是研究簡縮數據和描述這些數據。如將搜集所得的大量數據歸類并用表格或圖形表示出來。通過計算所得數據的集中量數、差異量數、地位量數和相關系數等特征數值,描述有關事物的典型性、波動范圍和相互關系,揭示事物的內在規律。推斷統計學是利用數據進行統計檢驗、統計分析和非參數統計。亦即以一定的置信度,根據部分數據去推斷更一般的情況,務使所得的結論能應用于更廣泛的范圍或根據已知數據結合行業特點進行預測。

從內容來說,描述統計是依據統計的方法對所搜集的數據資料進行加工整理,通過圖示、求典型量數等手段對數據資料進行分析和描述。調查和試驗是搜集統計資料的主要途徑;統計表、統計圖是呈現統計資料的主要形式;統計資料的典型量數主要有反映集中趨勢的集中量數、反映離散趨勢的差異量數、反映相對地位的地位量數和反映觀測數據之間相互關系的相關量數等。集中量數是描述數據集中趨勢的統計量數,包括算術平均數、加權平均數、幾何平均數、中數、眾數等,作用是度量次數分布的集中趨勢。差異量數是描述離中趨勢的統計量,包括平均差、方差、標準差等,作用在于度量次數分布的離中趨勢。所謂“離中趨勢”,是指次數分布中數據彼此差異的程度,反映了次數分布的離散程序,即變異性。地位量數是描述原始變量在其所分布中地位的量數,包括百分位分數、百分位等級分數、標準分數和T分數等。因相對于次數分布而言,故又稱為相對地位量數。相關系數是兩列變量間相關程度的數量化指標,包括積差相關系數、等級相關系數、質量與量相關系數、品質相關系數等。描述統計主要是描述事物的典型性、波動范圍以及相互關系,從而提示事物的內部規律。

推斷統計以描述統計為基礎,主要是研究由部分說明整體的理論與方法,即根據局部的信息,利用統計的原理與方法,分析論證在一定可靠度下總體的數量特征或分布特征。推斷統計學包括假設檢驗(大樣本Z檢驗、小樣本t檢驗、χ2檢驗、F檢驗、線性回歸、多變量統計分析等)、參數估計、非參數檢驗等。多元統計分析方法是建立在多元統計分布基礎上的一類處理多元統計數據方法的總稱,是統計學中具有豐富理論和眾多應用方法的重要分支,主體內容包括多元正態總體參數估計、假設檢驗和常用的多元統計方法。常用的多元統計方法又包括多元回歸分析、多元方差分析、典型相關分析、主成分分析、因子分析、聚類分析、判別分析等。推斷統計學的理論原理包括抽樣理論、估計理論和統計檢驗原理。抽樣理論主要討論在什么情況下可以從樣本的特性推論出總體的特性,特別關注樣本抽取的原則。只有抽樣具有隨機性,才能保證推論具有某種程度的準確性。估計理論主要是根據隨機抽樣的結果來估計總體分布的參數值,分為點估計和區間估計。統計檢驗主要是根據實際的抽樣結果來推論有關總體特征的假設是否與具體的隨機抽樣所提供的信息相一致。為了在抽樣基礎上對某種假設是否成立作出判斷,就得進行檢驗。

描述統計是推論統計的基礎,后者離不開前者計算獲得的值。描述統計是只對數據進行一般的分析歸納,如果不應用推論作進一步的分析,描述統計的結果就不會產生更大的價值和意義,達不到統計分析的目的和要求。當然,有時需要良好的試驗設計。只有良好的試驗設計,才能使獲得的數據具有意義,進一步的推論統計才能說明問題。試驗設計,必須符合基本的統計方法要求;否則,再好的設計,如果事先沒有確定適當的統計處理方法,在處理研究結果時也可能會遇到許多麻煩問題。

1.1.2 統計數據

統計學是收集、處理、分析、解釋數據并從數據中得出結論的科學。統計數據是統計工作活動過程中所取得的反映國民經濟和社會現象的數字資料以及與之相聯系的其他資料的總稱。統計數據按不同的分類規則可以分為不同的類型,這里介紹5種分類規則。

  •  按照統計數據的收集方法,可以分為觀測數據和試驗數據。觀測數據(Observational Data)是通過調查或觀測而收集到的數據,它是在沒有對事物進行人為控制的條件下得到的。有關社會經濟現象的統計數據幾乎都是觀測數據。在試驗中控制試驗對象而收集到的數據則稱為試驗數據(Experimental Data)。
  •  按照統計數據的來源,可以分為計數數據和測量數據。計數數據(Count Data)是計算個數的數據。一般情況下,調查所得的數據屬于計數數據,如常住人口數、男女人數等。計數數據一般取整數形式。測量數據(Measurement Data)是指借助一定的測量工具或一定的測量標準而獲得的數據,如身高、體重、考試分數、智力測驗分數等。
  •  按照數據是否具有連續性,可以分為離散數據和連續數據。離散數據(Discrete Data)又稱為不連續數,如球賽比分、班級個數等。這類數據在任意兩個數據點之間所取的數值個數是有限的。一般情況下,計數數據是離散數據。連續數據(Continuous Data)指任意兩個數據點之間可以細分出無限多個大小不一的數值,如年齡、長度、重量等。這類數據往往取決于測量技術和精度。在實際應用中,離散數據和連續數據在形式上不易嚴格區分。例如,人數、次數是離散數據,但在統計分析中也常常出現例如平均10.5人、平均9.5次的情況。而連續數據本來只能用區間表示,但為了方便,常用這個區間的中點表示。例如,60kg代表59.5~60.4kg這個區間。
  •  按照被描述的對象與時間的關系,可以分為截面數據和時間序列數據。在相同或近似相同的時間點上收集到的數據稱為截面數據(Cross-Sectional Data)。在不同時間上收集到的數據,稱為時間序列數據(Time Series Data)。
  •  按照統計數據反映的測量水平(尺度),可以分為定類數據、定序數據、定距數據、定比數據。

對統計數據的屬性、特征進行分類、標示和計算,稱為統計計量或統計量度。美國社會學家、統計學家史蒂文斯(S. S. Stevens)1968年按照變量的性質和數學運算的功能特點,將統計計量劃分為4個層次或4種計量尺度。由此將統計數據分為4種類型。4類統計數據的關系如圖1-1所示。

圖1-1 4類統計數據的關系

定類數據(Nominal Data)表現為類別,但不區分順序,是由定類尺度計量形成的。定類尺度將數字作為現象總體中不同類別或不同組別的代碼,這是最低層次的尺度。數字只起符號作用,絲毫不具有“量”的含義。在這種情況下,不同的數字僅表示不同類(組)別的品質差別,而不表示它們之間量的順序或量的大小。定類尺度的主要數學特征是“=”或“≠”。例如“性別”,“男”編碼為1,“女”編碼為2。當然,有的定類數據是對定量特征的反映,例如及格-不及格,是按考試成績是否高于60分來分類的,這類數據形式上是定性,但含有定量的成分。

定序數據(Ordinal Data)表現為類別,但有順序,是由定序尺度計量形成的。定序尺度不但可以用數表示量的不同類(組)別,而且也反映量的大小順序關系,從而可以列出各單位、各類(組)的次序。定序尺度的主要數學特征是“>”或“<”。例如“受教育程度”,文盲半文盲=1,小學=2,初中=3,高中=4,大學=5,碩士研究生=6,博士及其以上=7。可以說博士的知識水平高于碩士,但不能說一個博士相當于幾個碩士。又如,5名學生的身高分別為180cm、178cm、170cm、165cm、164cm,由高到低對應的排名次序為1、2、3、4、5。身高排名第1的學生與排名第2的學生,身高差距并不等于身高第2的學生與第3的學生之間的差距。所以,此類數據不能進行加、減、乘、除運算,依照定序數據求平均值是根本錯誤的。

定距數據(Interval Data)表現為數值,可進行加、減運算,是由定距尺度計量形成的。定距尺度也稱間隔尺度,是對事物類別或次序之間間距的計量,它通常使用自然或度量衡單位作為計量尺度。定距尺度是比定序尺度高一層次的計量尺度。它不僅能將事物區分為不同類型并進行排序,而且可以準確地指出類別之間的差距是多少。定距尺度的主要數學特征是“+”或“-”。溫度、能力分數、智商分數等數據屬于定距數據。例如,在一次能力測驗中,學生A、學生B、學生C的能力分數分別為90、85、80。比較3個學生的能力時,可以說學生A的能力分數高于學生B,學生B的能力分數高于學生C,還可以說學生A與學生B的能力分數之差等于學生B與學生C的能力分數之差。由于這類數據不從絕對零點開始算起,所以在這項能力測驗中,如有學生得分為0,也不能判斷該學生在這方面的知識和能力為0。比較時,可以做加、減運算,不能做乘、除運算,不能說學生A的能力是學生B的多少倍。還有,等距數據有時是形式上的,在嚴格意義上并不等距。例如考試分數,由于題目的難度與分數并不一定呈線性關系,兩個分值相同的題目難度不一定相同,因而考試分數在反映學生的能力方面很難等距。如果試卷滿分100分,學生得分100分比95分高5分,35分比30分也高5分,但這兩個5分是不能等量齊觀的,似乎分數越高,難度越大,就像攀登高山一樣,越到高處,越難攀登。

定比數據(Ratio Data)表現為數值,可進行加、減、乘、除運算,是由定比尺度計量形成的。定比尺度是在定距尺度的基礎上,確定可以作為比較的基數,將兩種相關的數加以對比,而形成新的相對數,用以反映現象的構成、比重、速度、密度等數量關系。由于它是在比較基數上形成的尺度,所以能夠顯示更加深刻的意義。定比尺度的主要數學特征是“÷”或“×”。在統計的對比分析中,廣泛地運用定比尺度進行計量。例如,父親的身高為180cm,兒子的身高為60cm,可以說父親的身高比兒子高120cm,也可以說父親的身高是兒子的2倍。

前兩類數據說明的是事物的品質特征,不能用數值表示,其結果均表現為類別,也稱為定性數據或品質數據(Qualitative Data);后兩類數據說明的是現象的數量特征,能夠用數值來表現,因此也稱為定量數據或數量數據(Quantitative Data)。不同測度級別的數據,應用范圍不同。一般來說,數據的等級越高,應用范圍越廣泛,等級越低,應用范圍越受限。等級高的數據,可以兼有等級低的數據的功能,而等級低的數據,不能兼有等級高的數據的功能。當然,可以將高層次數據轉化為低層次數據,例如將考試成績的百分制轉化為五等級制。在統計分析中,一般要求測量的層次越高越好,因為高層次的計量尺度包含更多的數學特性,所運用的統計分析方法越多,分析時也就越方便。

區分測量的層次和數據的類型是十分重要的,因為對不同類型的數據將采用不同的統計方法來處理和分析。例如,對定類數據,通常計算出各組的頻數或頻率,計算其眾數和異眾比率,進行列聯表分析和X2檢驗等;對定序數據,可以計算其中位數和四分位差,計算等級相關系數等非參數分析;對定距或定比數據還可以用更多的統計方法進行處理,如計算各種統計量、進行參數估計和檢驗等。我們所處理的大多為數量數據。

需要特別指出的是,適用于低層次測量數據的統計方法,也適用于較高層次的測量數據,因為后者具有前者的數學特性。例如,在描述數據的集中趨勢時,對定類數據通常是計算眾數,對定序數據通常是計算中位數,但對定距和定比數據同樣也可以計算眾數和中位數。反之,適用于高層次測量數據的統計方法,則不能用于較低層次的測量數據,因為低層次數據不具有高層次測量數據的數學特性。例如,對于定距和定比數據可以計算平均數,但對于定類數據和定序數據則不能計算平均數。理解這一點,對于選擇統計分析方法是十分有用的。

1.1.3 幾組基本概念

1.變量、變量值、隨機變量

變量(Variables)是說明現象某種屬性和特征的名稱,是指可變的數量標志和所有的統計指標。在數量標志中,不變的數量標志稱為常量,可變的數量標志稱為變量。由可變數量標志構造的各種指標也稱為變量。例如,在校生人數、商品銷售額、產品質量等級等都是變量。變量從上一次觀察到下一次觀察會呈現出差別或變化。數量變異標志的表現形式是具體的數值,稱為變量值。例如:某集團公司下屬3個分公司,甲公司的職工人數為650人,乙公司的職工人數為1023人,丙公司的職工人數為890人,要求計算該集團公司下屬分公司的平均職工人數。在這里,“職工人數”是一個變量,所要平均的是“職工人數”這個變量的3個數值,即3個變量值。

變量按性質可分為品質變量和數值變量。變量可以是定性的,也可以是定量的。

變量按連續性可分為連續變量和離散變量。因為一個定量變量要么是離散的,要么是連續的。在社會經濟統計中,一般表現為只能取整數的變量為離散變量。連續變量的數值是連續不斷的,相鄰的兩個值之間可作無限分割,即可取無限個值,例如人的身高、體重等。連續變量的數值要用測量或計算的方法取得。

變量按穩定性分為確定性變量和隨機變量。離散變量的兩個變量值之間的隨機變量(Random Variable)表示隨機現象(在一定條件下,并不總是出現相同結果的現象稱為隨機現象)各種結果的變量(一切可能的樣本點)。例如,某次擲色子的結果,某一時間內公共汽車站等車人數,電話交換臺在一定時間內收到的呼叫次數等,都是隨機變量的實例,只能取有限個變量值。

社會科學中研究變量的關系,通常把一個變量稱為自變量(獨立變量),另一個變量稱之為因變量(依賴變量)。

2.總體、個體、樣本

在統計學中,研究對象的全體稱為總體(Population),總體為具有某種特征的一類事物。組成總體的每個單位,即每個研究對象稱為個體(Individual)。總體中所包含的個體的數量稱為總體容量。容量有限的總體為有限總體,有限個體的數目通常用N來表示;容量無限的總體為無限總體。總體本身的大小,有限還是無限,要依據研究問題的推論范圍而定。

從總體中抽出的部分個體組成的集合稱為來自總體的樣本(Sample)。通常,樣本是相互獨立且與總體為同一分布。樣本中所含個體的數量稱為樣本容量。總體與樣本可以互相轉化。例如,某校高三年級學生,可以作為該校現在高三年級的總體,也可以作為該校現在所有學生的一個樣本,還可以作為該校過去、現在、將來高三年級的一個樣本。

一般地,設X是一個隨機變量,X1X2,…,Xn是一組相互獨立且與X同分布的隨機變量,則稱X是總體,X1X2,…,Xn為來自總體X的簡單隨機樣本,簡稱樣本,n為樣本容量。

3.參數、統計量

參數(Parameter)是相對于總體分布來說的,反映總體基本信息的特征數字,稱作總體參數,簡稱參數。一般來講,研究者所關心的參數常有總體平均數、總體標準差。

統計量(Statistics)是用來描述樣本特征的概括性數字度量。

參數代表總體的特征,是一個常數。統計量代表樣本的特性,是一個變量,隨著樣本的變化而變化。總體參數常用希臘字母表示,樣本統計量常用英文字母表示。常用參數和統計量所用字母和讀音如表1-1所示。

表1-1 常用參數和統計量所用字母和讀音

主站蜘蛛池模板: 聂拉木县| 抚州市| 万年县| 峨眉山市| 汨罗市| 河源市| 开阳县| 烟台市| 淮南市| 忻州市| 闵行区| 孟州市| 诸城市| 珲春市| 涞水县| 乌苏市| 毕节市| 和林格尔县| 灵璧县| 沁源县| 鄢陵县| 安乡县| 海淀区| 丹寨县| 慈溪市| 临沭县| 涟源市| 揭西县| 洛川县| 离岛区| 牡丹江市| 玉溪市| 昌平区| 宁夏| 万盛区| 赞皇县| 万荣县| 巴楚县| 原平市| 百色市| 长泰县|