第3章 SPSS統(tǒng)計數(shù)據(jù)的創(chuàng)建與編輯
本章包括
◆ SPSS數(shù)據(jù)的屬性及其定義方法
◆ SPSS數(shù)據(jù)文件的構(gòu)成
◆ 應(yīng)用案例:定義SPSS數(shù)據(jù)結(jié)構(gòu)
◆ SPSS數(shù)據(jù)的錄入
◆ SPSS數(shù)據(jù)的編輯
◆ 數(shù)據(jù)文件的操作
建立SPSS數(shù)據(jù)文件是利用SPSS進行數(shù)據(jù)管理和統(tǒng)計分析的首要工作,只有高質(zhì)量的統(tǒng)計數(shù)據(jù)才是數(shù)據(jù)分析的可靠保證。本章介紹創(chuàng)建SPSS數(shù)據(jù)文件的基本方法和操作步驟。
3.1 SPSS數(shù)據(jù)的屬性及其定義方法
一個完整的SPSS數(shù)據(jù)結(jié)構(gòu)應(yīng)包括變量名、變量類型、變量名標簽、變量值標簽、缺失值的定義、度量尺度以及數(shù)據(jù)的顯示屬性,即顯示寬度、列寬度和對齊方式等。首先,我們給出SPSS變量屬性的定義和有關(guān)設(shè)置。
3.1.1 變量名(Name)
變量名是變量參與分析的唯一標志,定義變量結(jié)構(gòu)時首先應(yīng)給出每個變量的變量名。變量命名應(yīng)遵循如下規(guī)則:
◆ 首字符必須是字母或漢字,后面可以是任意字母、數(shù)字、句點,除“!”“?”“*”之外。
◆ 變量名的結(jié)尾不能是圓點、或者下畫線。
◆ 變量名長度不能超過64個字符(32個漢字)。
◆ 變量名必須是唯一的,且不區(qū)分大小寫。
◆ SPSS的保留字不能作為變量名。SPSS的保留字有:ALL、NE、EQ、TQ、LE、GE、BY、OR、GT、AND、NOT和WlTH等。
◆ 如不指定變量名,則系統(tǒng)默認變量名為以“VAR”開頭,后面跟5個數(shù)字,如VAR00001、VAR00002、VAR00018等。
為便于記憶和理解,定義變量名時最好與其所代表的具體含義相一致,例如“country”,“GDP”,“匯率”等。
3.1.2 變量類型(Type)
SPSS的變量類型分為數(shù)值型、字符型和日期型,其中,數(shù)值型變量根據(jù)其功能和形式又可細分為標準型、逗號型、圓點型、科學(xué)計數(shù)型、美元型和自定義貨幣型。系統(tǒng)默認的變量類型為標準數(shù)值型。
每一種變量類型都有系統(tǒng)默認的寬度、小數(shù)位和列寬度。這里的寬度是指變量可顯示的最大字符位數(shù),列寬度是數(shù)值編輯窗口中每列顯示的字符位數(shù)。如果列顯示寬度小于變量的寬度,則相應(yīng)列中的數(shù)據(jù)將顯示為需要列寬較小的科學(xué)計數(shù)法,或者顯示為若干個“*”號。圖3.1所示為變量類型的定義對話框。

圖3.1 變量類型定義對話框
下面給出變量類型的分類和定義方式。
3.1.2.1 數(shù)值型變量(Numeric)
數(shù)值型變量是SPSS最常用的一種變量類型,一般由數(shù)字和其他特殊字符(如圓點、逗號、美元符號等)構(gòu)成。例如軍費開支、零售價格指數(shù)以及藥劑量的大小等都可定義為數(shù)值型變量。SPSS中,數(shù)值型變量有6種不同的表示方式。
(1)標準型(Numeric)
SPSS默認的數(shù)值類型。系統(tǒng)默認寬度為8位,小數(shù)位數(shù)為2位,小數(shù)點用圓點。數(shù)據(jù)編輯窗口顯示數(shù)值的標準形式或者科學(xué)計數(shù)法格式。
(2)科學(xué)計數(shù)法型(Scientific Notation)
科學(xué)計數(shù)法型適合于顯示數(shù)值很大或者很小的變量。變量值顯示為指數(shù)形式。例如-1.28E+002表示-1.28×102,在數(shù)據(jù)編輯窗口中顯示為2.88E+002的數(shù)值,可以用下列方法輸入:2.88E2、2.88D2、2.88+2、288、2.88E+2等。
(3)逗號型(Comma)
逗號型數(shù)據(jù)的整數(shù)部分從個位數(shù)開始向前每隔3個數(shù)字就用逗號分隔,且以圓點作為小數(shù)點。輸入數(shù)據(jù)可以利用上面的任意形式,不需要輸入逗號,SPSS顯示時,會自動在相應(yīng)位置添加逗號。
(4)圓點型(Dot)
圓點型數(shù)據(jù)的顯示方式和逗號型相反,即其整數(shù)部分從個位開始每隔3位以一圓點分隔,用逗號作為整數(shù)和小數(shù)部分的分隔符。
變量值可以根據(jù)對變量數(shù)據(jù)類型所作的定義或者列寬的限制顯示為不同的數(shù)值類型,甚至“*”號,但數(shù)據(jù)的顯示對數(shù)據(jù)的存儲和計算沒有影響。
(5)美元型(DoIIar)
美元型變量是在逗號型變量前加上美元符號“$”的數(shù)值型變量,圖3.2所示為美元型變量定義對話框。在美元型變量定義對話框中,列出多種固定格式,用戶可以選擇格式,也可以自己定義。例如,某產(chǎn)品價格為1789.98美元,可以選擇“###,###.##”格式。若需要顯示大額美元數(shù)值,可以增加對話框中參數(shù)選項“Width”的值。

圖3.2 美元型變量定義對話框
(6)自定義貨幣型(Custom Currency)
SPSS提供了5個自定義貨幣型變量的類型,圖3.3所示為自定義貨幣型變量定義對話框。對應(yīng)的自定義類型,系統(tǒng)分別命名為CCA、CCB、CCC、CCD和CCE型。若用戶將變量類型自定為5個中的一個,但沒有事先定制CCA、CCB、CCC、CCD和CCE的具體類型,則系統(tǒng)自動默認為逗號數(shù)值型。

圖3.3 自定義貨幣型變量定義對話框
若要重定義CCA、CCB、CCD、CCC和CCE的類型,需要打開“Edit”菜單的“Options”項,具體方法如下:
step 1 首先,在SPSS主界面中,選擇菜單“Edit”→“Options”命令,在顯示的Options對話框中,單擊選項標簽“Currency”,出現(xiàn)如圖3.4所示的自定義貨幣型變量設(shè)置對話框。

圖3.4 自定義貨幣型變量設(shè)置對話框
“Edit”菜單下的“Options”對話框里包含了SPSS主要的定制和控制功能。利用“Options”對話框中提供的項目,可以定制變量的顯示類型、圖表的顯示方式以及輸出結(jié)果的形式,同時,還可控制SPSS啟動的內(nèi)容以及暫存文件夾的地址等。后續(xù)章節(jié)在講述各種窗口的設(shè)置時仍要用到該對話框。
step 2 其次,若定制CCA的類型,可先在“Custom Output Formats”窗口中選擇CCA,然后,在“All Values”(所有值)窗口中,選擇前后綴:
◆ Prefix 前綴。該欄中輸入數(shù)據(jù)開始字符。
◆ Suffix 后綴。該欄中輸入數(shù)據(jù)結(jié)尾字符。
在“Negative Values”(負數(shù)值)窗口中設(shè)置負數(shù)的輸入格式,有兩個選項:
◆ Prefix 前綴。該欄中輸入負數(shù)數(shù)據(jù)開始字符。
◆ Suffix 后綴。該欄中輸入負數(shù)數(shù)據(jù)結(jié)尾字符。
在“Decimal Separator”(小數(shù)分隔符)窗口中,選擇數(shù)值部分小數(shù)和整數(shù)的分隔符,有兩個選項:
◆ Period 圓點。
◆ Comma 逗號。
在“Sample Output”(輸出樣式)窗口中,可以看到設(shè)置格式的顯示樣式。設(shè)置完畢后,依次單擊“Apply”(應(yīng)用)按鈕和“OK”(確定)按鈕,使定制生效。
例如,在“All Values”(所有值)窗口中的“Prefix”欄中輸入“¥”,在“Suffix”欄中輸入“元”,則在數(shù)據(jù)編輯窗口中定義為CCA類型的變量中輸入數(shù)據(jù)2388.95后,數(shù)據(jù)顯示為:¥2388.95元。
3.1.2.2 日期型變量(Date)
日期型變量用于表示日期和時間的變量類型。SPSS提供了多達29種日期型變量的格式,例如,dd.mm.yy格式,dd表示兩位數(shù)的日期,mm表示兩位數(shù)的月份,yy表示兩位數(shù)的年份,中間用圓點分隔符,08.07.06表示2006年7月8日;再如,dd-mmm-yyyy,dd表示兩位數(shù)的日期, mmm表示英文月份的三個字母的縮寫,yyyy表示四位數(shù)的年份,這里“-”為分隔符。例如31-OCT-2006表示2006年10月31日。
圖3.5為日期型變量的定義窗口,在窗口的列表選擇框中,SPSS給出了29種日期類型的格式供用戶選擇。

圖3.5 日期型變量的定義窗口
表3.1列出了幾種主要的日期型格式及示例,供用戶選擇參考。
表3.1 部分日期型格式及示例

3.1.2.3 String(字符型變量)
字符型變量類型是非數(shù)值型變量類型,其值由字符串組成。字符型變量的定義對話框只有一個輸入項:Characters,如圖3.6所示,用于輸入變量字符的最大個數(shù),默認值是8,可以修改字符串長度。對于字符數(shù)超過8個的字符型變量稱為長字符型變量,等于或少于8個的字符型變量稱為短字符型變量。字符串變量值不能參與計算,但可以通過函數(shù)轉(zhuǎn)化為數(shù)值型變量進行運算。

圖3.6 字符型變量定義對話框
3.1.2.4 修改數(shù)據(jù)變量的默認值
對于SPSS變量的參數(shù),系統(tǒng)都會自動給出默認值。例如,數(shù)值型變量的Width(寬度)默認值為8位,Decimal(小數(shù)位)默認值為2。也可通過“Edit”菜單的“Data”對話框重新設(shè)置,具體步驟如下:
在SPSS主界面中,選擇菜單“Edit”→“Options”命令,在彈出的對話框中,單擊菜單項的“Data”按鈕,顯示如圖3.7所示的數(shù)據(jù)設(shè)置對話框。

圖3.7 數(shù)據(jù)設(shè)置對話框
該對話框的窗口及選擇項含義如下:
(1)Transformation and Merge Options(轉(zhuǎn)換和合并選項)窗口
“Transformation and Merge Options”窗口中給出設(shè)置數(shù)據(jù)轉(zhuǎn)換和合并的時間,有兩個單選框:
◆ CaIcuIate vaIues immediateIy 立即計算變量值。默認選項。選擇該項,表示執(zhí)行命令的同時,進行變量的計算和轉(zhuǎn)換。
◆ CaIcuIate vaIues before used 在使用該數(shù)據(jù)之前進行轉(zhuǎn)換。選擇該項,表示執(zhí)行命令之前,先將需要處理的變量進行計算和轉(zhuǎn)換。
SPSS程序執(zhí)行一條命令時,需要讀取數(shù)據(jù)文件,如果數(shù)據(jù)進行了預(yù)處理(例如計算和重新編碼等)或數(shù)據(jù)文件進行了轉(zhuǎn)換(例如添加變量或添加個案),則系統(tǒng)執(zhí)行命令時,首先執(zhí)行數(shù)據(jù)預(yù)處理命令,然后執(zhí)行程序命令。選擇第一個選項時,執(zhí)行程序命令需要哪一個數(shù)據(jù),就對該數(shù)據(jù)進行預(yù)處理;選擇第二個選項時,是在執(zhí)行程序命令之前,先將所需要的數(shù)據(jù)文件全部進行預(yù)處理,然后再執(zhí)行程序命令。對于經(jīng)常處理巨量數(shù)據(jù)的用戶,選擇第二個選項更有效率。
(2)DispIay Format for New Numeric VariabIes(顯示新的數(shù)值型變量的格式)窗口
“Display Format for New Numeric Variables”窗口給出設(shè)置數(shù)值型變量值的顯示格式。
選擇設(shè)置變量的Width(寬度)和變量的Decimal(小數(shù)位數(shù)),默認值分別為8和2。對于要求顯示數(shù)值的精度較高,或者數(shù)字的位數(shù)較大的數(shù)值,可以將寬度和小數(shù)位數(shù)設(shè)置大一些。若輸入的數(shù)值的位數(shù)超過設(shè)置的位數(shù),顯示時會將數(shù)值四舍五入;若列寬設(shè)置過小,也可以表示為科學(xué)計數(shù)法。例如,20181968.0751顯示為20181968.08(寬度為11,小數(shù)位為2,列寬為11),或者2E+007 (寬度為11,小數(shù)位為2,列寬為6)。
寬度和小數(shù)位的設(shè)置只影響數(shù)值的顯示精度和形式,不會改變數(shù)值的內(nèi)部值,內(nèi)部值總是和數(shù)據(jù)輸入時是一致的。
(3)Set Century Range for 2-Digit Years(對于2位數(shù)表示的年代,設(shè)置世紀的范圍)窗口
“Set Century Range for 2-Digit Years”窗口要求設(shè)置日期型變量中,年份為兩位數(shù)時的世紀范圍。有兩個單選項:
◆ Automatic 選擇默認范圍,從1937年至2036年。
◆ Custom 選擇自定義,有兩個輸入框,“Begin year”(起始年份)和“End year”(結(jié)束年份),但兩項中只能選一項,因為系統(tǒng)默認的時間跨度為100年,當(dāng)一個年份給定后,另一個年份則由系統(tǒng)自動確定。例如,若在“Begin year”欄輸入1949,則“End year”自動設(shè)為2048。
(4)Random Number Generator(偽隨機數(shù)發(fā)生器)窗口
“Random Number Generator”窗口提供了兩種不同的產(chǎn)生偽隨機數(shù)的方法:
◆ SPSS 12 CompatibIe 利用SPSS 12或更早版本提供的偽隨機數(shù)發(fā)生器方法產(chǎn)生偽隨機數(shù)。
◆ Long period Mersenne Twister 利用MT(Mersenne Twister)方法產(chǎn)生偽隨機數(shù)。MT方法具有更高的可靠性以及足夠大的周期(周期最高可達219937-1)。
3.1.3 變量標簽(Label)
變量標簽是對變量名和變量值的進一步解釋和說明,可分為Variable Labels(變量名標簽)和Value Labels(變量值標簽)。
(1)VariabIe LabeIs(變量名標簽)
變量名標簽是對變量名含義的進一步補充說明。因為早期版本中的變量名長度限制為8個字符,有時不能清楚地說明變量的含義。變量名標簽可以由不超過256個字符(或128個漢字)組成,并且可以包含空格和SPSS保留字。變量名標簽是一個可選屬性,也可以不定義。同時,在統(tǒng)計分析結(jié)果中,一般不顯示變量名標簽的信息。
變量名標簽的定義方法是在SPSS主窗口中,單擊左下角的“Variable View”(變量視圖)按鈕,切換至變量視圖窗口,然后在相應(yīng)變量名所在的行中,直接在Label列添加變量名標簽的內(nèi)容。
圖3.8給出了一個定義變量值標簽的示例。

圖3.8 定義變量值標簽示例
(2)VaIue LabeIs(變量值標簽)
變量值標簽是對數(shù)值型變量各個取值的含義給予進一步解釋和說明的信息。在數(shù)據(jù)文件中,用數(shù)值型變量表示非數(shù)值型變量時尤其有用。標簽內(nèi)容最多可以有120個字符。例如,定義一個名為“職稱”的數(shù)值型變量,取值為1,2,3,4;并且變量值1代表“教授”職稱,2代表“副教授”職稱,3代表“講師”職稱,4代表“助教”職稱。
定義變量值標簽,可在“Variable View”(變量視角)視區(qū),雙擊“Values”列中相應(yīng)變量位置,顯示如圖3.9所示的變量值標簽定義對話框,在“Value”欄中輸入變量值,在“Label”欄中輸入變量值所代表的含義,即變量值標簽。然后單擊“Add”按鈕,下方的文本框中顯示輸入的變量值及其標簽。重復(fù)以上過程,直至變量的所有變量值標簽輸入完畢,單擊“OK”按鈕,使對變量值標簽的設(shè)置生效。如果輸入有誤,可單擊文本框顯示的錯誤標簽,在上面輸入欄修改,然后單擊“Change”按鈕,確認修改結(jié)果。亦可單擊“Remove”按鈕,刪除某些不需要的標簽。

圖3.9 變量值標簽定義對話框
變量值標簽只對數(shù)值型變量、日期型變量和短字符型變量有效,長字符型變量(寬度超過8)沒有變量名標簽和變量值標簽的屬性。
3.1.4 Missing(變量缺失數(shù)據(jù))
在統(tǒng)計分析的數(shù)據(jù)收集過程中,因為某些原因,有時會產(chǎn)生記錄的數(shù)據(jù)失真,或者沒有記錄等異常情況發(fā)生。例如,學(xué)生體檢中,某學(xué)生的體重記錄為553公斤,這顯然是一個失真數(shù)據(jù),不能使用,但其他數(shù)據(jù)在分析中還可以使用。或者在問卷調(diào)查中,被調(diào)查者沒有填寫調(diào)查表必須填寫的年收入一欄,成為缺失值。
以上所述的情況稱之為數(shù)據(jù)缺失或數(shù)據(jù)不完全。缺失或不完全數(shù)據(jù)在統(tǒng)計分析中是不能使用的。
SPSS通過指定用戶缺失值的方法來定義缺失數(shù)據(jù)。在“Variable View”(變量視窗)視區(qū),雙擊“Missing”列中相應(yīng)變量的單元格,顯示如圖3.10所示的變量缺失值定義對話框,有3種可選方式:

圖3.10 變量缺失值定義對話框
◆ No missing vaIues 不指定缺失值。
◆ Discrete missing vaIues 對數(shù)值型或字符型變量,用戶指定缺失值為1至3個特定的離散值。
◆ Range pIus one optionaI discrete missing vaIue 選擇該項,表示對數(shù)值型變量,用戶缺失值定義在一個連續(xù)的閉區(qū)間和一個區(qū)間以外的離散值,在該窗口下的“Low”和“High”欄分別輸入連續(xù)區(qū)間的左右端點,在“Discrete value”欄中輸入?yún)^(qū)間以外的一個確定值。
3.1.5 Measure(度量尺度)
根據(jù)數(shù)據(jù)的度量尺度不同,變量可分為三大類,即Scale(定距型變量)、Ordinal(定序型變量)和Nominal(定類型變量)。
(1)ScaIe(定距型變量)
定距型變量可以是諸如表示溫度、重量等含義的連續(xù)型數(shù)值變量,也可以是年齡、次數(shù)等離散型變量,還可以是表示時間的日期型變量或者表示貨幣的貨幣型變量,但不能是字符型變量。
(2)OrdinaI(定序型變量)
定序型變量的值表示的是一種順序的前后,這一點和定距型變量不同。例如,定義“軍銜”變量可以分為尉官、校官和將官三個檔次,分別用1,2,3表示;“職稱”變量分為高、中、低三個檔次,可以用A,B,C表示。定序型變量可以是數(shù)值型變量,也可以是字符型變量。
(3)NominaI(定類型變量)
定類型變量也稱為名義變量,該類型變量不存在變量值之間固有的大小或順序的前后,變量值一般只表示屬于的類別。如“職業(yè)”變量中的工人,農(nóng)民、軍人等取變量值時,可以分別用1,2, 3等數(shù)值表示;“性別”變量中的男、女取變量值時,可以用數(shù)值1、2表示。定類型變量可以是字符型變量,也可以是數(shù)值型變量。
建立新的變量或者讀取外部數(shù)據(jù)文件,以及打開由SPSS 8.0或更早版本創(chuàng)建的數(shù)據(jù)文件時,SPSS默認變量的度量尺度類型規(guī)則如下:
◆ 字符型變量設(shè)置為定類型變量。
◆ 具有變量值標簽的數(shù)值型變量設(shè)置為定序型變量。
◆ 不含值標簽且變量值小于24的數(shù)值型變量設(shè)置為定類型變量。
◆ 不含值標簽且變量值大于等于24的數(shù)值型變量設(shè)置為定距型變量。
- Blockchain for Business 2019
- 概率論與數(shù)理統(tǒng)計
- 一定要懂博弈論
- 數(shù)學(xué)建模與數(shù)學(xué)規(guī)劃:方法、案例及編程實戰(zhàn)(Python+COPT/Gurobi實現(xiàn))
- 數(shù)學(xué)的雨傘下:理解世界的樂趣
- 數(shù)學(xué)的力量
- 隨機數(shù)學(xué)及其應(yīng)用
- 10堂極簡概率課
- 數(shù)字、代數(shù)和圖象(全彩版)
- 趣味魔方:一學(xué)就會的魔方秘笈
- 證明與布丁
- 數(shù)學(xué)多大點事兒
- 說不盡的圓周率
- 現(xiàn)代啟發(fā)式優(yōu)化方法及其應(yīng)用
- 第四屆(2018)北京高校數(shù)學(xué)微課程教學(xué)設(shè)計競賽優(yōu)秀作品與教改論文集錦