官术网_书友最值得收藏!

2.1 認識數據類型

統(tǒng)計是數據驅動的。統(tǒng)計方法區(qū)分根源在于處理不同類型的數據,不同類型的數據來自不同類型的業(yè)務(領域)特征。在學習分析數據之前,先要認清數據的特征。

統(tǒng)計軟件(數據庫管理軟件)中的單個數據集被稱為表,根據表中數據組織形式的不同,分為3種類型。

(1)橫截面數據集

給定時點對個人、家庭、企業(yè)、國家或一系列其他單位采集樣本所構成的數據集。這類數據要么由于采集于同一時刻,沒有時間變量,要么時間因素可以忽略,不考慮時間變量。比如“CREDIT”數據集。

(2)時間序列數據集

時間序列數據集是由一個或幾個變量在不同時間的觀測值所構成,這類數據一個最顯著的特征是有一個明顯的時間變量。比如,“AIR”和“GDP_COAL”數據集。

(3)縱列數據集

縱列數據集也稱為面板數據或縱貫數據,是由橫截面數據集中每個樣本的一個時間序列組成的。如果每個橫截面數據集中樣本個體所記錄時間序列的時段都是一樣的,則該數據集被稱為平衡面板數據,否則被稱為非平衡面板數據,或者刪失數據。比如“LABRWAGE”和“PROFIT”數據集。

數據集的特征是選擇描述和統(tǒng)計方法的依據。橫截面數據由于符合大數定理的假設條件(獨立同分布),因此,可以使用以該定理為基礎的大部分統(tǒng)計方法,這類方法也是本書詳細講解的方法。而時間序列數據不能滿足大數定理的假設條件,需要使用專門處理時間序列數據的方法。在公司IT環(huán)境中保存的業(yè)務數據,絕大多數雖然是縱列數據。但在分析這類數據時,我們要么按時間維度歸集為時間序列數據集進行分析,要么按個體維度歸集為橫截面數據集進行分析。直接針對縱列數據的面板數據分析法和生存分析的方法,由于過于復雜和學術化,在實際商業(yè)數據分析中并不常用。

變量的測量類型和具體的統(tǒng)計方法息息相關。變量的測量從測量類型角度大致分為3類,分別是名義測量、次序測量和連續(xù)變量測量。其中連續(xù)變量測量可以進一步細分為間距測量和比率測量。名義測量和次序測量也被統(tǒng)稱為分類變量。

圖2-1

摘自:SAS公司《SAS? Enterprise Guide?:ANOVA,Regression,and Logistic Regression》

(1)名義測量(Nominal Measurement)是最低的一種測量等級,也稱定名測度。其數值僅代表某些分類或屬性。比如,用來表示性別(1或2)和民族(1、2、3…)等。這類變量一般不做高低、大小區(qū)分。

(2)次序測量(Ordinal Measurement)的量化水平高于名義測量,用于測量的數值代表了一些有序分類。比如,用來表示受教育程度高低的數字(1、2、3…)具有一定的順序性。

(3)間距測量(Interval Measurement)的量化程度更高一些,它的取值不再是類的編碼,而是采用一定單位的實際測量值。可以進行加減運算,但不能進行乘除運算,因為測量等級的變量所取的“0”值,不是物理上的絕對“0”。比如,考試成績的“0”。

(4)比率測量(Ratio Measurement)是最高級的測量等級,他除了具有間距測度等級的所有性質外,其0值具有物理上的絕對意義,而且可以進行加減乘除運算。例如身高、收入。

間距測量和比率測量這兩種測量,在SAS或其他統(tǒng)計軟件里均不作細致區(qū)分。大部分的模型均適用,它們使用的方法也基本相同,不作區(qū)分。如表2-1所示,給出了變量測量類型和統(tǒng)計方法之間的關系。這張表作為學習的路線圖,將會在本書的后續(xù)章節(jié)反復出現。

表2-1 變量測量類型和統(tǒng)計方法之間的關系

【練習】(數據請參考附錄A,或到http://bbs.pinggu.org/網站下載)

請在“PROFIT”這張表中指明每個變量的測量類型。

主站蜘蛛池模板: 鹤岗市| 武陟县| 长白| 高邑县| 佛坪县| 凌源市| 泌阳县| 乡宁县| 阜南县| 河西区| 富顺县| 拉孜县| 大名县| 昌吉市| 璧山县| 抚顺县| 平陆县| 沅陵县| 芷江| 甘孜| 永年县| 克什克腾旗| 广东省| 滁州市| 都昌县| 涿鹿县| 陕西省| 太保市| 娱乐| 清涧县| 湖南省| 沂源县| 九龙城区| 个旧市| 天镇县| 珲春市| 孙吴县| 常山县| 顺义区| 建始县| 河间市|