官术网_书友最值得收藏!

1.2.4 統(tǒng)計分析的關(guān)鍵思路及質(zhì)量評價

統(tǒng)計分析的常見策略主要包括數(shù)據(jù)統(tǒng)計描述、數(shù)據(jù)差異顯著性檢驗(yàn)、關(guān)聯(lián)性分析、回歸分析、聚類分析、降維分析等內(nèi)容。這些策略可以分為兩個不同的類別,其一是對數(shù)據(jù)的描述與檢驗(yàn),其二是基于數(shù)據(jù)建模并依據(jù)模型對未來數(shù)據(jù)實(shí)施判定或預(yù)測。上述策略主要有兩種關(guān)鍵思路。

1.統(tǒng)計推斷——提出假設(shè)并檢驗(yàn)假設(shè)

(1)統(tǒng)計推斷的基本思路

在數(shù)據(jù)檢驗(yàn)前,先提出一種假設(shè),然后按照特定的算法對假設(shè)進(jìn)行檢驗(yàn),最后根據(jù)檢驗(yàn)概率判定假設(shè)成立的可能性。這就是統(tǒng)計推斷。

在實(shí)證研究中,人們通常先假設(shè)“不顯著”,例如,實(shí)驗(yàn)班與對照班學(xué)生的成績沒有顯著差異,或?qū)W生性別對物理成績沒有顯著的影響,愛好與性別沒有關(guān)聯(lián)性。這個假設(shè)被稱為零假設(shè),簡記為H0。然后利用已有的數(shù)據(jù)進(jìn)行計算、歸納,最后根據(jù)統(tǒng)計規(guī)律分析零假設(shè)成立的可能性。

例如,在數(shù)據(jù)的差異顯著性檢驗(yàn)過程中,人們通常預(yù)先假設(shè)兩列數(shù)據(jù)不存在顯著性差異,然后依據(jù)SPSS或Excel內(nèi)置的算法算出假設(shè)成立的概率值(即假設(shè)成立的可能性)。若假設(shè)成立的概率值p大于5%,則表示原假設(shè)是成立的,兩列數(shù)據(jù)之間是不存在顯著性差異的;若假設(shè)成立的概率值p小于5%,則表示原假設(shè)是很難成立的,即兩列數(shù)據(jù)無顯著差異的可能性很低,兩列數(shù)據(jù)之間是存在顯著差別的。

對兩列數(shù)據(jù)的關(guān)聯(lián)性分析也借助了這一思路。

(2)統(tǒng)計推斷中常見的兩種錯誤

在統(tǒng)計推斷中,“顯著性”是研究者期望得到的結(jié)果。例如,經(jīng)過教學(xué)改革,實(shí)驗(yàn)班與對照班學(xué)生的成績有顯著性差異;在醫(yī)藥領(lǐng)域,服用新藥的病人與服用安慰劑的病人身體狀況有顯著差異;在歸因分析中,新媒體技術(shù)的應(yīng)用對學(xué)生的物理成績產(chǎn)生了顯著影響……

對于“顯著性”的統(tǒng)計推斷,容易發(fā)生兩類錯誤:其一,錯誤地拒絕了零假設(shè),把不該顯著的事情判定為“顯著”。這類錯誤也被稱為第一類錯誤(即α錯誤,或TYPE I錯誤)。其二,錯誤地接受了“零假設(shè)”,把本該顯著的事情判定為“不顯著”。這類錯誤也被稱為第二類錯誤(即β錯誤,或TYPE II錯誤)。

從科學(xué)研究來看,犯第一類錯誤的危害較大,相當(dāng)于把“無差異”判定為“有差異”、把“無效”判定為“有效”。這可能會衍生出后續(xù)的研究、應(yīng)用,其危害將是不可估量的。相對而言,犯第二類錯誤的危害則相對較小,研究者如果對自己的假設(shè)很有信心,可能會重新設(shè)計實(shí)驗(yàn),再次來過,直到得到正確的結(jié)果。

除了樣本自身和計算精度的影響之外,在“何種情況下拒絕零假設(shè)”的標(biāo)準(zhǔn)對于減少兩類錯誤非常重要。標(biāo)準(zhǔn)定得過寬,則容易犯第一類錯誤;標(biāo)準(zhǔn)定得過嚴(yán),則容易犯第二類錯誤。

因此,在科學(xué)研究中,人們通常指定“檢驗(yàn)概率值p=0.05”作為判斷是否承認(rèn)零假設(shè)的標(biāo)準(zhǔn)(即常講的置信度為95%)。當(dāng)p≥0.05時,就承認(rèn)零假設(shè),認(rèn)為研究對象的表現(xiàn)不顯著;只有在p < 0.05時,才拒絕零假設(shè),認(rèn)為被研究對象的表現(xiàn)是顯著的。在特定情況下,為了提升研究的標(biāo)準(zhǔn),進(jìn)一步控制“顯著性”,人們也常常把p=0.01作為拒絕零假設(shè)的標(biāo)準(zhǔn)值(即置信度為99%)。

在統(tǒng)計學(xué)中,p=0.05這個標(biāo)準(zhǔn)被稱為“置信度95%的顯著性標(biāo)準(zhǔn)”,因此也常被寫作Sig值=0.05。

2.對數(shù)據(jù)建模及模型質(zhì)量的判定——基于“模型值/偏差值”

在統(tǒng)計分析中,不論是做回歸分析還是判別分析,其實(shí)都是力圖創(chuàng)建一個盡可能與測量數(shù)據(jù)很好地擬合的數(shù)據(jù)模型——創(chuàng)建并檢驗(yàn)?zāi)P唾|(zhì)量的過程就是建模。對于模型的質(zhì)量,人們通常利用“模型值/誤差值”(即效應(yīng)值)來判定模型的有效程度,這一思路貫穿了統(tǒng)計分析的各個過程,只是在不同的模塊中可能呈現(xiàn)為不同的具體形態(tài)。

例如,在兩次抽樣數(shù)據(jù)的差異顯著性檢驗(yàn)中,人們常常使用兩個均值的差與其標(biāo)準(zhǔn)誤(即SE)的比值來判定兩個數(shù)據(jù)序列是否存在顯著性差異。事實(shí)上,若兩個序列的均值之差遠(yuǎn)大于標(biāo)準(zhǔn)誤SE,則表示這兩個序列之間的差距遠(yuǎn)遠(yuǎn)大于各個組的組內(nèi)正常波動,即組間的差異值不是由組內(nèi)正常波動而引起的,組間的差別應(yīng)是由分組所導(dǎo)致的。這就是非常重要的T檢驗(yàn)的核心思想。對應(yīng)的公式如式1-1所示。注意,公式中的XaXb分別表示兩個序列的均值,SE則代表著抽樣數(shù)據(jù)的標(biāo)準(zhǔn)誤。

??式1-1

在線性回歸分析的處理中,通常需要根據(jù)已有的數(shù)據(jù)創(chuàng)建回歸方程,即基于已有數(shù)據(jù)建構(gòu)模型。在完成了建模后,根據(jù)模型計算出的數(shù)值稱為回歸值(即期望值),而原始數(shù)據(jù)(觀測值)與回歸值之間的差被稱為殘差,也可以稱之為誤差。回歸值越接近對應(yīng)的觀測值越好。因此人們用“回歸值的均方和”與“殘差均方和”的比值(簡稱F值)來評價回歸方程的質(zhì)量。這個比值越大,表示回歸方程的影響力越大,回歸效果越好。在理想情況下,回歸方程能夠完全擬合測量值,則相應(yīng)的“殘差均方和”為0,導(dǎo)致F值為無窮大。評價線性回歸質(zhì)量的計算方法如式1-2所示。

??式1-2

同理,判別分析也借助了與此相似的評價方式,通過殘差與有效數(shù)據(jù)的比值來反映判別效果,這個比值(Wilks Lamda值,即威爾克斯λ值)越小,表示判定效果越有效。

注意:

本節(jié)為了闡述統(tǒng)計分析的一些基本思路而提及了較多的術(shù)語,對于這些術(shù)語,讀者可暫時只是記憶,但不做深入理解,后續(xù)將進(jìn)行詳細(xì)的解讀。

主站蜘蛛池模板: 南江县| 梅河口市| 德州市| 额济纳旗| 南漳县| 英山县| 南平市| 金山区| 铁岭市| 镇沅| 汝南县| 茶陵县| 昂仁县| 广水市| 松滋市| 阿巴嘎旗| 石景山区| 涪陵区| 张家港市| 永州市| 榆林市| 冷水江市| 隆化县| 红河县| 沁水县| 滨州市| 工布江达县| 莱西市| 成都市| 新民市| 赞皇县| 仪征市| 宁明县| 黄骅市| 鹤岗市| 南丰县| 临高县| 梓潼县| 冕宁县| 射洪县| 博爱县|