官术网_书友最值得收藏!

Stata統計分析從入門到精通

2.2 分類變量描述統計

2.2.1 單個分類變量的匯總

下載資源:\video\第2章\…

下載資源:\sample\第2章\數據2C

與前面提到的定距變量不同,分類變量的數值只代表觀測值所屬的類別,不代表其他任何含義。因此,對分類變量的描述統計方法是觀察其不同類別的頻數或者百分數。本節將介紹單個分類變量的匯總在示例中的應用。

關于單個分類變量的匯總,常用到tabulate操作命令,該命令的語法格式為:

tabulate varname [if] [in] [weight] [,tabulate1_options]

tabulate命令生成變量頻率計數的單向表,varname為變量,[if]為條件表達式,[in]用于設置樣本范圍,[weight]用于設置權重,[,tabulate1_options]用于設置可選項。[,tabulate1_options]可選項及其含義如表2.5所示。

表2.5 [,tabulate1_options]可選項及其含義

本例中我們使用的數據集來自“數據2C”數據文件,其中有兩個變量,分別為gender和pass,如圖2.16所示。

圖2.16 “數據2C”中的數據內容

打開上述數據文件之后,在主界面的命令窗口中依次輸入以下命令:

tabulate pass

本命令的含義是對pass變量進行單個分類變量的匯總,結果如圖2.17所示。可以看出,共有112個樣本參與了分析,其中處于no狀態的有44個,占比39.29%,處于yes狀態的有68個,占比60.71%。此外,結果分析表中“Cum.”一欄表示的是累計百分比。

圖2.17 對pass變量進行單個分類變量的匯總

tabulate pass,plot

本命令的含義是對pass變量進行單個分類變量的匯總,并附有星點圖,結果如圖2.18所示,可以看出對pass這一變量進行單個變量匯總的結果以及星點圖情況。

圖2.18 對pass變量進行單個分類變量的匯總以及星點圖

2.2.2 兩個分類變量的列聯表分析

下載資源:\video\第2章\…

下載資源:\sample\第2章\數據2D

兩個分類變量的列聯表分析,常用到tab2命令,該命令的語法格式為:

tab2 varlist [if] [in] [weight] [,options]

tab2命令的功能是生成varlist中指定變量所有可能的雙向列表。varlist為變量列表,[if]為條件表達式,[in]用于設置樣本范圍,[weight]用于設置權重,[,options]用于設置可選項。常用的可選項如表2.6所示。

表2.6 tab2命令的常用可選項

下面以“數據2D”數據文件為例進行介紹。“數據2D”中有3個變量,分別為gender和pass1、pass2,如圖2.19所示。

圖2.19 “數據2D”中的數據內容

打開上述數據文件之后,在主界面的命令窗口中依次輸入以下命令:

tab2 pass1 pass2

本命令的含義是對pass1、pass2兩個變量進行兩個分類變量的列聯表分析,分析結果如圖2.20所示。從分析結果中可以看出共有119個樣本參與了分析,其中有42人pass1為no、pass2為no,有10人pass1為no、pass2為yes,有39人pass1為yes、pass2為no,有28人pass1為yes、pass2為yes。

tab2 pass1 pass2,column row

本命令的含義是對pass1、pass2兩個變量進行兩個分類變量的列聯表分析,還要顯示每個單元格的列百分比與行百分比,分析結果如圖2.21所示。分析結果表中的單元格包括3部分信息,其中第1行表示的是頻數,第2行表示的是行百分比,第3行表示的是列百分比。例如,最左上角的單元格的意義是:pass1為no、pass2為no的樣本個數有42個,這部分樣本在所有pass1為no的樣本中占比為80.77%,在所有pass2為no的樣本中占比為51.85%。

圖2.20 列聯表分析結果圖1

圖2.21 列聯表分析結果圖2

2.2.3 多表和多維列聯表分析

下載資源:\video\第2章\…

下載資源:\sample\第2章\數據2E

對于一些大型數據集,我們經常需要許多不同變量的頻數分布。那么如何快速簡單地實現這一目的呢?這就需要用到Stata的多表和多維列聯表分析功能。關于多表和多維列聯表分析,常用到table命令,該命令的語法格式為:

table rowvar [colvar [supercolvar]] [if] [in] [weight] [,options]

table命令的功能是計算和顯示統計表。rowvar為行變量,colvar為列變量,[if]為條件表達式,[in]用于設置樣本范圍,[weight]用于設置權重,[,options]用于設置可選項。

本例中我們使用的數據集來自“數據2E”數據文件,有4個變量,分別為gender和pass1、pass2、pass3,如圖2.22所示。

圖2.22 數據2E

打開上述數據文件之后,在主界面的命令窗口中依次輸入以下命令:

tab1 pass1 pass2 pass3

本命令的含義是對數據中的分類變量pass1、pass2、pass3進行單個變量匯總統計,分析結果如圖2.23所示。可以看出,共有94個樣本參與了分析,其中針對pass1變量,為no的樣本個數一共有38個,占比為40.43%,為yes的樣本個數一共有56個,占比為59.57%;針對pass2變量,為no的樣本個數一共有73個,占比為77.66%,為yes的樣本個數一共有21個,占比為22.34%;針對pass3變量,為no的樣本個數一共有70個,占比為74.47%,為yes的樣本個數一共有24個,占比為25.53%。此外,結果分析表中“Cum.”一欄表示的是累計百分比。

tab2 pass1 pass2 pass3

本命令的含義是對數據中的分類變量pass1、pass2、pass3進行二維列聯表分析,分析結果如圖2.24所示。

圖2.23 分析結果圖1

圖2.24 分析結果圖2

從分析結果中可以看出本次調查所獲得的信息:分析結果中包括3張二維列聯表,第1張是變量pass2與變量pass1的二維列聯表分析,第2張是變量pass3與變量pass1的二維列聯表分析,第3張是變量pass2與變量pass3的二維列聯表分析。關于二維列聯表的解讀,我們在上一節的示例中已經講述過,不再贅述。

by pass1,sort:tabulate pass2 pass3

本命令的含義是以pass1為主分類變量,制作pass1、pass2、pass3三個分類變量的三維列聯表,分析結果如圖2.25所示,是一張三維列聯表,包括兩部分:上半部分描述的是當pass1變量取值為no的時候,變量pass2與變量pass3的二維列聯表分析;下半部分描述的是當pass1變量取值為yes的時候,變量pass2與變量pass3的二維列聯表分析。

table pass1 pass2 pass3,contents(freq)

本命令的含義是對數據中的分類變量pass1、pass2、pass3實現帶有數據頻數特征的列聯表分析,分析結果如圖2.26所示。本結果分析圖的解讀方式與前面類似,這里不再贅述。

其中contents括號里的內容表示的是頻數,該括號內支持的內容與命令符號的對應關系如表2.7所示。

圖2.25 分析結果圖

圖2.26 分析結果圖

表2.7 contents括號內支持的內容與命令符號的對應關系

主站蜘蛛池模板: 射阳县| 平定县| 博乐市| 中江县| 浠水县| 合川市| 宁远县| 长岭县| 普安县| 衡水市| 嘉峪关市| 隆尧县| 任丘市| 皮山县| 洱源县| 海安县| 潼南县| 莱州市| 丰镇市| 潼南县| 肃北| 房产| 乌鲁木齐市| 玉田县| 香河县| 建平县| 自治县| 馆陶县| 兴义市| 开原市| 黄陵县| 遵化市| 双辽市| 政和县| 合江县| 金乡县| 佛坪县| 崇仁县| 顺昌县| 安吉县| 孝义市|