官术网_书友最值得收藏!

第3章 SPSS統計數據的創建與編輯

本章包括

◆ SPSS數據的屬性及其定義方法

◆ SPSS數據文件的構成

◆ 應用案例:定義SPSS數據結構

◆ SPSS數據的錄入

◆ SPSS數據的編輯

◆ 數據文件的操作

建立SPSS數據文件是利用SPSS進行數據管理和統計分析的首要工作,只有高質量的統計數據才是數據分析的可靠保證。本章介紹創建SPSS數據文件的基本方法和操作步驟。

3.1 SPSS數據的屬性及其定義方法

一個完整的SPSS數據結構應包括變量名、變量類型、變量名標簽、變量值標簽、缺失值的定義、度量尺度以及數據的顯示屬性,即顯示寬度、列寬度和對齊方式等。首先,我們給出SPSS變量屬性的定義和有關設置。

3.1.1 變量名(Name)

變量名是變量參與分析的唯一標志,定義變量結構時首先應給出每個變量的變量名。變量命名應遵循如下規則:

◆ 首字符必須是字母或漢字,后面可以是任意字母、數字、句點,除“!”“?”“*”之外。

◆ 變量名的結尾不能是圓點、或者下畫線。

◆ 變量名長度不能超過64個字符(32個漢字)。

◆ 變量名必須是唯一的,且不區分大小寫。

◆ SPSS的保留字不能作為變量名。SPSS的保留字有:ALL、NE、EQ、TQ、LE、GE、BY、OR、GT、AND、NOT和WlTH等。

◆ 如不指定變量名,則系統默認變量名為以“VAR”開頭,后面跟5個數字,如VAR00001、VAR00002、VAR00018等。

為便于記憶和理解,定義變量名時最好與其所代表的具體含義相一致,例如“country”,“GDP”,“匯率”等。

3.1.2 變量類型(Type)

SPSS的變量類型分為數值型、字符型和日期型,其中,數值型變量根據其功能和形式又可細分為標準型、逗號型、圓點型、科學計數型、美元型和自定義貨幣型。系統默認的變量類型為標準數值型。

每一種變量類型都有系統默認的寬度、小數位和列寬度。這里的寬度是指變量可顯示的最大字符位數,列寬度是數值編輯窗口中每列顯示的字符位數。如果列顯示寬度小于變量的寬度,則相應列中的數據將顯示為需要列寬較小的科學計數法,或者顯示為若干個“*”號。圖3.1所示為變量類型的定義對話框。

圖3.1 變量類型定義對話框

下面給出變量類型的分類和定義方式。

3.1.2.1 數值型變量(Numeric)

數值型變量是SPSS最常用的一種變量類型,一般由數字和其他特殊字符(如圓點、逗號、美元符號等)構成。例如軍費開支、零售價格指數以及藥劑量的大小等都可定義為數值型變量。SPSS中,數值型變量有6種不同的表示方式。

(1)標準型(Numeric)

SPSS默認的數值類型。系統默認寬度為8位,小數位數為2位,小數點用圓點。數據編輯窗口顯示數值的標準形式或者科學計數法格式。

(2)科學計數法型(Scientific Notation)

科學計數法型適合于顯示數值很大或者很小的變量。變量值顯示為指數形式。例如-1.28E+002表示-1.28×102,在數據編輯窗口中顯示為2.88E+002的數值,可以用下列方法輸入:2.88E2、2.88D2、2.88+2、288、2.88E+2等。

(3)逗號型(Comma)

逗號型數據的整數部分從個位數開始向前每隔3個數字就用逗號分隔,且以圓點作為小數點。輸入數據可以利用上面的任意形式,不需要輸入逗號,SPSS顯示時,會自動在相應位置添加逗號。

(4)圓點型(Dot)

圓點型數據的顯示方式和逗號型相反,即其整數部分從個位開始每隔3位以一圓點分隔,用逗號作為整數和小數部分的分隔符。

變量值可以根據對變量數據類型所作的定義或者列寬的限制顯示為不同的數值類型,甚至“*”號,但數據的顯示對數據的存儲和計算沒有影響。

(5)美元型(DoIIar)

美元型變量是在逗號型變量前加上美元符號“$”的數值型變量,圖3.2所示為美元型變量定義對話框。在美元型變量定義對話框中,列出多種固定格式,用戶可以選擇格式,也可以自己定義。例如,某產品價格為1789.98美元,可以選擇“###,###.##”格式。若需要顯示大額美元數值,可以增加對話框中參數選項“Width”的值。

圖3.2 美元型變量定義對話框

(6)自定義貨幣型(Custom Currency)

SPSS提供了5個自定義貨幣型變量的類型,圖3.3所示為自定義貨幣型變量定義對話框。對應的自定義類型,系統分別命名為CCA、CCB、CCC、CCD和CCE型。若用戶將變量類型自定為5個中的一個,但沒有事先定制CCA、CCB、CCC、CCD和CCE的具體類型,則系統自動默認為逗號數值型。

圖3.3 自定義貨幣型變量定義對話框

若要重定義CCA、CCB、CCD、CCC和CCE的類型,需要打開“Edit”菜單的“Options”項,具體方法如下:

step 1 首先,在SPSS主界面中,選擇菜單“Edit”→“Options”命令,在顯示的Options對話框中,單擊選項標簽“Currency”,出現如圖3.4所示的自定義貨幣型變量設置對話框。

圖3.4 自定義貨幣型變量設置對話框

“Edit”菜單下的“Options”對話框里包含了SPSS主要的定制和控制功能。利用“Options”對話框中提供的項目,可以定制變量的顯示類型、圖表的顯示方式以及輸出結果的形式,同時,還可控制SPSS啟動的內容以及暫存文件夾的地址等。后續章節在講述各種窗口的設置時仍要用到該對話框。

step 2 其次,若定制CCA的類型,可先在“Custom Output Formats”窗口中選擇CCA,然后,在“All Values”(所有值)窗口中,選擇前后綴:

Prefix 前綴。該欄中輸入數據開始字符。

Suffix 后綴。該欄中輸入數據結尾字符。

在“Negative Values”(負數值)窗口中設置負數的輸入格式,有兩個選項:

Prefix 前綴。該欄中輸入負數數據開始字符。

Suffix 后綴。該欄中輸入負數數據結尾字符。

在“Decimal Separator”(小數分隔符)窗口中,選擇數值部分小數和整數的分隔符,有兩個選項:

Period 圓點。

Comma 逗號。

在“Sample Output”(輸出樣式)窗口中,可以看到設置格式的顯示樣式。設置完畢后,依次單擊“Apply”(應用)按鈕和“OK”(確定)按鈕,使定制生效。

例如,在“All Values”(所有值)窗口中的“Prefix”欄中輸入“¥”,在“Suffix”欄中輸入“元”,則在數據編輯窗口中定義為CCA類型的變量中輸入數據2388.95后,數據顯示為:¥2388.95元。

3.1.2.2 日期型變量(Date)

日期型變量用于表示日期和時間的變量類型。SPSS提供了多達29種日期型變量的格式,例如,dd.mm.yy格式,dd表示兩位數的日期,mm表示兩位數的月份,yy表示兩位數的年份,中間用圓點分隔符,08.07.06表示2006年7月8日;再如,dd-mmm-yyyy,dd表示兩位數的日期, mmm表示英文月份的三個字母的縮寫,yyyy表示四位數的年份,這里“-”為分隔符。例如31-OCT-2006表示2006年10月31日。

圖3.5為日期型變量的定義窗口,在窗口的列表選擇框中,SPSS給出了29種日期類型的格式供用戶選擇。

圖3.5 日期型變量的定義窗口

表3.1列出了幾種主要的日期型格式及示例,供用戶選擇參考。

表3.1 部分日期型格式及示例

3.1.2.3 String(字符型變量)

字符型變量類型是非數值型變量類型,其值由字符串組成。字符型變量的定義對話框只有一個輸入項:Characters,如圖3.6所示,用于輸入變量字符的最大個數,默認值是8,可以修改字符串長度。對于字符數超過8個的字符型變量稱為長字符型變量,等于或少于8個的字符型變量稱為短字符型變量。字符串變量值不能參與計算,但可以通過函數轉化為數值型變量進行運算。

圖3.6 字符型變量定義對話框

3.1.2.4 修改數據變量的默認值

對于SPSS變量的參數,系統都會自動給出默認值。例如,數值型變量的Width(寬度)默認值為8位,Decimal(小數位)默認值為2。也可通過“Edit”菜單的“Data”對話框重新設置,具體步驟如下:

在SPSS主界面中,選擇菜單“Edit”→“Options”命令,在彈出的對話框中,單擊菜單項的“Data”按鈕,顯示如圖3.7所示的數據設置對話框。

圖3.7 數據設置對話框

該對話框的窗口及選擇項含義如下:

(1)Transformation and Merge Options(轉換和合并選項)窗口

“Transformation and Merge Options”窗口中給出設置數據轉換和合并的時間,有兩個單選框:

CaIcuIate vaIues immediateIy 立即計算變量值。默認選項。選擇該項,表示執行命令的同時,進行變量的計算和轉換。

CaIcuIate vaIues before used 在使用該數據之前進行轉換。選擇該項,表示執行命令之前,先將需要處理的變量進行計算和轉換。

SPSS程序執行一條命令時,需要讀取數據文件,如果數據進行了預處理(例如計算和重新編碼等)或數據文件進行了轉換(例如添加變量或添加個案),則系統執行命令時,首先執行數據預處理命令,然后執行程序命令。選擇第一個選項時,執行程序命令需要哪一個數據,就對該數據進行預處理;選擇第二個選項時,是在執行程序命令之前,先將所需要的數據文件全部進行預處理,然后再執行程序命令。對于經常處理巨量數據的用戶,選擇第二個選項更有效率。

(2)DispIay Format for New Numeric VariabIes(顯示新的數值型變量的格式)窗口

“Display Format for New Numeric Variables”窗口給出設置數值型變量值的顯示格式。

選擇設置變量的Width(寬度)和變量的Decimal(小數位數),默認值分別為8和2。對于要求顯示數值的精度較高,或者數字的位數較大的數值,可以將寬度和小數位數設置大一些。若輸入的數值的位數超過設置的位數,顯示時會將數值四舍五入;若列寬設置過小,也可以表示為科學計數法。例如,20181968.0751顯示為20181968.08(寬度為11,小數位為2,列寬為11),或者2E+007 (寬度為11,小數位為2,列寬為6)。

寬度和小數位的設置只影響數值的顯示精度和形式,不會改變數值的內部值,內部值總是和數據輸入時是一致的。

(3)Set Century Range for 2-Digit Years(對于2位數表示的年代,設置世紀的范圍)窗口

“Set Century Range for 2-Digit Years”窗口要求設置日期型變量中,年份為兩位數時的世紀范圍。有兩個單選項:

Automatic 選擇默認范圍,從1937年至2036年。

Custom 選擇自定義,有兩個輸入框,“Begin year”(起始年份)和“End year”(結束年份),但兩項中只能選一項,因為系統默認的時間跨度為100年,當一個年份給定后,另一個年份則由系統自動確定。例如,若在“Begin year”欄輸入1949,則“End year”自動設為2048。

(4)Random Number Generator(偽隨機數發生器)窗口

“Random Number Generator”窗口提供了兩種不同的產生偽隨機數的方法:

SPSS 12 CompatibIe 利用SPSS 12或更早版本提供的偽隨機數發生器方法產生偽隨機數。

Long period Mersenne Twister 利用MT(Mersenne Twister)方法產生偽隨機數。MT方法具有更高的可靠性以及足夠大的周期(周期最高可達219937-1)。

3.1.3 變量標簽(Label)

變量標簽是對變量名和變量值的進一步解釋和說明,可分為Variable Labels(變量名標簽)和Value Labels(變量值標簽)。

(1)VariabIe LabeIs(變量名標簽)

變量名標簽是對變量名含義的進一步補充說明。因為早期版本中的變量名長度限制為8個字符,有時不能清楚地說明變量的含義。變量名標簽可以由不超過256個字符(或128個漢字)組成,并且可以包含空格和SPSS保留字。變量名標簽是一個可選屬性,也可以不定義。同時,在統計分析結果中,一般不顯示變量名標簽的信息。

變量名標簽的定義方法是在SPSS主窗口中,單擊左下角的“Variable View”(變量視圖)按鈕,切換至變量視圖窗口,然后在相應變量名所在的行中,直接在Label列添加變量名標簽的內容。

圖3.8給出了一個定義變量值標簽的示例。

圖3.8 定義變量值標簽示例

(2)VaIue LabeIs(變量值標簽)

變量值標簽是對數值型變量各個取值的含義給予進一步解釋和說明的信息。在數據文件中,用數值型變量表示非數值型變量時尤其有用。標簽內容最多可以有120個字符。例如,定義一個名為“職稱”的數值型變量,取值為1,2,3,4;并且變量值1代表“教授”職稱,2代表“副教授”職稱,3代表“講師”職稱,4代表“助教”職稱。

定義變量值標簽,可在“Variable View”(變量視角)視區,雙擊“Values”列中相應變量位置,顯示如圖3.9所示的變量值標簽定義對話框,在“Value”欄中輸入變量值,在“Label”欄中輸入變量值所代表的含義,即變量值標簽。然后單擊“Add”按鈕,下方的文本框中顯示輸入的變量值及其標簽。重復以上過程,直至變量的所有變量值標簽輸入完畢,單擊“OK”按鈕,使對變量值標簽的設置生效。如果輸入有誤,可單擊文本框顯示的錯誤標簽,在上面輸入欄修改,然后單擊“Change”按鈕,確認修改結果。亦可單擊“Remove”按鈕,刪除某些不需要的標簽。

圖3.9 變量值標簽定義對話框

變量值標簽只對數值型變量、日期型變量和短字符型變量有效,長字符型變量(寬度超過8)沒有變量名標簽和變量值標簽的屬性。

3.1.4 Missing(變量缺失數據)

在統計分析的數據收集過程中,因為某些原因,有時會產生記錄的數據失真,或者沒有記錄等異常情況發生。例如,學生體檢中,某學生的體重記錄為553公斤,這顯然是一個失真數據,不能使用,但其他數據在分析中還可以使用。或者在問卷調查中,被調查者沒有填寫調查表必須填寫的年收入一欄,成為缺失值。

以上所述的情況稱之為數據缺失或數據不完全。缺失或不完全數據在統計分析中是不能使用的。

SPSS通過指定用戶缺失值的方法來定義缺失數據。在“Variable View”(變量視窗)視區,雙擊“Missing”列中相應變量的單元格,顯示如圖3.10所示的變量缺失值定義對話框,有3種可選方式:

圖3.10 變量缺失值定義對話框

No missing vaIues 不指定缺失值。

Discrete missing vaIues 對數值型或字符型變量,用戶指定缺失值為1至3個特定的離散值。

Range pIus one optionaI discrete missing vaIue 選擇該項,表示對數值型變量,用戶缺失值定義在一個連續的閉區間和一個區間以外的離散值,在該窗口下的“Low”和“High”欄分別輸入連續區間的左右端點,在“Discrete value”欄中輸入區間以外的一個確定值。

3.1.5 Measure(度量尺度)

根據數據的度量尺度不同,變量可分為三大類,即Scale(定距型變量)、Ordinal(定序型變量)和Nominal(定類型變量)。

(1)ScaIe(定距型變量)

定距型變量可以是諸如表示溫度、重量等含義的連續型數值變量,也可以是年齡、次數等離散型變量,還可以是表示時間的日期型變量或者表示貨幣的貨幣型變量,但不能是字符型變量。

(2)OrdinaI(定序型變量)

定序型變量的值表示的是一種順序的前后,這一點和定距型變量不同。例如,定義“軍銜”變量可以分為尉官、校官和將官三個檔次,分別用1,2,3表示;“職稱”變量分為高、中、低三個檔次,可以用A,B,C表示。定序型變量可以是數值型變量,也可以是字符型變量。

(3)NominaI(定類型變量)

定類型變量也稱為名義變量,該類型變量不存在變量值之間固有的大小或順序的前后,變量值一般只表示屬于的類別。如“職業”變量中的工人,農民、軍人等取變量值時,可以分別用1,2, 3等數值表示;“性別”變量中的男、女取變量值時,可以用數值1、2表示。定類型變量可以是字符型變量,也可以是數值型變量。

建立新的變量或者讀取外部數據文件,以及打開由SPSS 8.0或更早版本創建的數據文件時,SPSS默認變量的度量尺度類型規則如下:

◆ 字符型變量設置為定類型變量。

◆ 具有變量值標簽的數值型變量設置為定序型變量。

◆ 不含值標簽且變量值小于24的數值型變量設置為定類型變量。

◆ 不含值標簽且變量值大于等于24的數值型變量設置為定距型變量。

主站蜘蛛池模板: 玉林市| 鹤庆县| 宁海县| 尚志市| 华宁县| 宽城| 湟中县| 射阳县| 茂名市| 武汉市| 蓬溪县| 同德县| 德阳市| 辛集市| 同德县| 淮阳县| 怀远县| 望奎县| 新疆| 崇义县| 平顶山市| 绥棱县| 乐亭县| 桂东县| 永和县| 左贡县| 卓尼县| 山东省| 清涧县| 承德市| 石渠县| 兴化市| 贺兰县| 泗水县| 秀山| 梨树县| 平舆县| 灵山县| 独山县| 襄垣县| 禄劝|