- Stata統計分析從入門到精通
- 楊維忠 張甜編著
- 2116字
- 2023-09-15 18:21:10
2.2 分類變量描述統計
2.2.1 單個分類變量的匯總
下載資源:\video\第2章\…
下載資源:\sample\第2章\數據2C
與前面提到的定距變量不同,分類變量的數值只代表觀測值所屬的類別,不代表其他任何含義。因此,對分類變量的描述統計方法是觀察其不同類別的頻數或者百分數。本節將介紹單個分類變量的匯總在示例中的應用。
關于單個分類變量的匯總,常用到tabulate操作命令,該命令的語法格式為:
tabulate varname [if] [in] [weight] [,tabulate1_options]
tabulate命令生成變量頻率計數的單向表,varname為變量,[if]為條件表達式,[in]用于設置樣本范圍,[weight]用于設置權重,[,tabulate1_options]用于設置可選項。[,tabulate1_options]可選項及其含義如表2.5所示。
表2.5 [,tabulate1_options]可選項及其含義

本例中我們使用的數據集來自“數據2C”數據文件,其中有兩個變量,分別為gender和pass,如圖2.16所示。

圖2.16 “數據2C”中的數據內容
打開上述數據文件之后,在主界面的命令窗口中依次輸入以下命令:
tabulate pass
本命令的含義是對pass變量進行單個分類變量的匯總,結果如圖2.17所示。可以看出,共有112個樣本參與了分析,其中處于no狀態的有44個,占比39.29%,處于yes狀態的有68個,占比60.71%。此外,結果分析表中“Cum.”一欄表示的是累計百分比。

圖2.17 對pass變量進行單個分類變量的匯總
tabulate pass,plot
本命令的含義是對pass變量進行單個分類變量的匯總,并附有星點圖,結果如圖2.18所示,可以看出對pass這一變量進行單個變量匯總的結果以及星點圖情況。

圖2.18 對pass變量進行單個分類變量的匯總以及星點圖
2.2.2 兩個分類變量的列聯表分析
下載資源:\video\第2章\…
下載資源:\sample\第2章\數據2D
兩個分類變量的列聯表分析,常用到tab2命令,該命令的語法格式為:
tab2 varlist [if] [in] [weight] [,options]
tab2命令的功能是生成varlist中指定變量所有可能的雙向列表。varlist為變量列表,[if]為條件表達式,[in]用于設置樣本范圍,[weight]用于設置權重,[,options]用于設置可選項。常用的可選項如表2.6所示。
表2.6 tab2命令的常用可選項

下面以“數據2D”數據文件為例進行介紹。“數據2D”中有3個變量,分別為gender和pass1、pass2,如圖2.19所示。

圖2.19 “數據2D”中的數據內容
打開上述數據文件之后,在主界面的命令窗口中依次輸入以下命令:
tab2 pass1 pass2
本命令的含義是對pass1、pass2兩個變量進行兩個分類變量的列聯表分析,分析結果如圖2.20所示。從分析結果中可以看出共有119個樣本參與了分析,其中有42人pass1為no、pass2為no,有10人pass1為no、pass2為yes,有39人pass1為yes、pass2為no,有28人pass1為yes、pass2為yes。
tab2 pass1 pass2,column row
本命令的含義是對pass1、pass2兩個變量進行兩個分類變量的列聯表分析,還要顯示每個單元格的列百分比與行百分比,分析結果如圖2.21所示。分析結果表中的單元格包括3部分信息,其中第1行表示的是頻數,第2行表示的是行百分比,第3行表示的是列百分比。例如,最左上角的單元格的意義是:pass1為no、pass2為no的樣本個數有42個,這部分樣本在所有pass1為no的樣本中占比為80.77%,在所有pass2為no的樣本中占比為51.85%。

圖2.20 列聯表分析結果圖1

圖2.21 列聯表分析結果圖2
2.2.3 多表和多維列聯表分析
下載資源:\video\第2章\…
下載資源:\sample\第2章\數據2E
對于一些大型數據集,我們經常需要許多不同變量的頻數分布。那么如何快速簡單地實現這一目的呢?這就需要用到Stata的多表和多維列聯表分析功能。關于多表和多維列聯表分析,常用到table命令,該命令的語法格式為:
table rowvar [colvar [supercolvar]] [if] [in] [weight] [,options]
table命令的功能是計算和顯示統計表。rowvar為行變量,colvar為列變量,[if]為條件表達式,[in]用于設置樣本范圍,[weight]用于設置權重,[,options]用于設置可選項。
本例中我們使用的數據集來自“數據2E”數據文件,有4個變量,分別為gender和pass1、pass2、pass3,如圖2.22所示。

圖2.22 數據2E
打開上述數據文件之后,在主界面的命令窗口中依次輸入以下命令:
tab1 pass1 pass2 pass3
本命令的含義是對數據中的分類變量pass1、pass2、pass3進行單個變量匯總統計,分析結果如圖2.23所示。可以看出,共有94個樣本參與了分析,其中針對pass1變量,為no的樣本個數一共有38個,占比為40.43%,為yes的樣本個數一共有56個,占比為59.57%;針對pass2變量,為no的樣本個數一共有73個,占比為77.66%,為yes的樣本個數一共有21個,占比為22.34%;針對pass3變量,為no的樣本個數一共有70個,占比為74.47%,為yes的樣本個數一共有24個,占比為25.53%。此外,結果分析表中“Cum.”一欄表示的是累計百分比。
tab2 pass1 pass2 pass3
本命令的含義是對數據中的分類變量pass1、pass2、pass3進行二維列聯表分析,分析結果如圖2.24所示。

圖2.23 分析結果圖1

圖2.24 分析結果圖2
從分析結果中可以看出本次調查所獲得的信息:分析結果中包括3張二維列聯表,第1張是變量pass2與變量pass1的二維列聯表分析,第2張是變量pass3與變量pass1的二維列聯表分析,第3張是變量pass2與變量pass3的二維列聯表分析。關于二維列聯表的解讀,我們在上一節的示例中已經講述過,不再贅述。
by pass1,sort:tabulate pass2 pass3
本命令的含義是以pass1為主分類變量,制作pass1、pass2、pass3三個分類變量的三維列聯表,分析結果如圖2.25所示,是一張三維列聯表,包括兩部分:上半部分描述的是當pass1變量取值為no的時候,變量pass2與變量pass3的二維列聯表分析;下半部分描述的是當pass1變量取值為yes的時候,變量pass2與變量pass3的二維列聯表分析。
table pass1 pass2 pass3,contents(freq)
本命令的含義是對數據中的分類變量pass1、pass2、pass3實現帶有數據頻數特征的列聯表分析,分析結果如圖2.26所示。本結果分析圖的解讀方式與前面類似,這里不再贅述。
其中contents括號里的內容表示的是頻數,該括號內支持的內容與命令符號的對應關系如表2.7所示。

圖2.25 分析結果圖

圖2.26 分析結果圖
表2.7 contents括號內支持的內容與命令符號的對應關系

- 中文版Photoshop入門與提高(CS6版)
- Ext JS 3.0 Cookbook
- 視覺封王:Photoshop CC 2019立體化教程(素材+視頻+教案)
- Maya 2020基礎教材
- 高等院校電腦美術教材:CorelDRAW X7中文版基礎教程
- Linux Shell Scripting Cookbook
- 玩轉微信5.0
- Instant Apache Sqoop
- SketchUP草圖繪制從新手到高手
- Photoshop CS6淘寶美工完全實例教程(培訓教材版)
- Excel數據處理與分析:數據思維+分析方法+場景應用
- Web Host Manager Administration Guide
- 中文版Photoshop 2020基礎培訓教程
- After Effects CS6 標準教程
- 從零開始學Photoshop 摳圖+修圖+調色+特效+合成