- 科研統(tǒng)計思維與方法:SPSS實(shí)戰(zhàn)
- 馬秀麟
- 2016字
- 2024-09-10 16:37:01
1.2.4 統(tǒng)計分析的關(guān)鍵思路及質(zhì)量評價
統(tǒng)計分析的常見策略主要包括數(shù)據(jù)統(tǒng)計描述、數(shù)據(jù)差異顯著性檢驗(yàn)、關(guān)聯(lián)性分析、回歸分析、聚類分析、降維分析等內(nèi)容。這些策略可以分為兩個不同的類別,其一是對數(shù)據(jù)的描述與檢驗(yàn),其二是基于數(shù)據(jù)建模并依據(jù)模型對未來數(shù)據(jù)實(shí)施判定或預(yù)測。上述策略主要有兩種關(guān)鍵思路。
1.統(tǒng)計推斷——提出假設(shè)并檢驗(yàn)假設(shè)
(1)統(tǒng)計推斷的基本思路
在數(shù)據(jù)檢驗(yàn)前,先提出一種假設(shè),然后按照特定的算法對假設(shè)進(jìn)行檢驗(yàn),最后根據(jù)檢驗(yàn)概率判定假設(shè)成立的可能性。這就是統(tǒng)計推斷。
在實(shí)證研究中,人們通常先假設(shè)“不顯著”,例如,實(shí)驗(yàn)班與對照班學(xué)生的成績沒有顯著差異,或?qū)W生性別對物理成績沒有顯著的影響,愛好與性別沒有關(guān)聯(lián)性。這個假設(shè)被稱為零假設(shè),簡記為H0。然后利用已有的數(shù)據(jù)進(jìn)行計算、歸納,最后根據(jù)統(tǒng)計規(guī)律分析零假設(shè)成立的可能性。
例如,在數(shù)據(jù)的差異顯著性檢驗(yàn)過程中,人們通常預(yù)先假設(shè)兩列數(shù)據(jù)不存在顯著性差異,然后依據(jù)SPSS或Excel內(nèi)置的算法算出假設(shè)成立的概率值(即假設(shè)成立的可能性)。若假設(shè)成立的概率值p大于5%,則表示原假設(shè)是成立的,兩列數(shù)據(jù)之間是不存在顯著性差異的;若假設(shè)成立的概率值p小于5%,則表示原假設(shè)是很難成立的,即兩列數(shù)據(jù)無顯著差異的可能性很低,兩列數(shù)據(jù)之間是存在顯著差別的。
對兩列數(shù)據(jù)的關(guān)聯(lián)性分析也借助了這一思路。
(2)統(tǒng)計推斷中常見的兩種錯誤
在統(tǒng)計推斷中,“顯著性”是研究者期望得到的結(jié)果。例如,經(jīng)過教學(xué)改革,實(shí)驗(yàn)班與對照班學(xué)生的成績有顯著性差異;在醫(yī)藥領(lǐng)域,服用新藥的病人與服用安慰劑的病人身體狀況有顯著差異;在歸因分析中,新媒體技術(shù)的應(yīng)用對學(xué)生的物理成績產(chǎn)生了顯著影響……
對于“顯著性”的統(tǒng)計推斷,容易發(fā)生兩類錯誤:其一,錯誤地拒絕了零假設(shè),把不該顯著的事情判定為“顯著”。這類錯誤也被稱為第一類錯誤(即α錯誤,或TYPE I錯誤)。其二,錯誤地接受了“零假設(shè)”,把本該顯著的事情判定為“不顯著”。這類錯誤也被稱為第二類錯誤(即β錯誤,或TYPE II錯誤)。
從科學(xué)研究來看,犯第一類錯誤的危害較大,相當(dāng)于把“無差異”判定為“有差異”、把“無效”判定為“有效”。這可能會衍生出后續(xù)的研究、應(yīng)用,其危害將是不可估量的。相對而言,犯第二類錯誤的危害則相對較小,研究者如果對自己的假設(shè)很有信心,可能會重新設(shè)計實(shí)驗(yàn),再次來過,直到得到正確的結(jié)果。
除了樣本自身和計算精度的影響之外,在“何種情況下拒絕零假設(shè)”的標(biāo)準(zhǔn)對于減少兩類錯誤非常重要。標(biāo)準(zhǔn)定得過寬,則容易犯第一類錯誤;標(biāo)準(zhǔn)定得過嚴(yán),則容易犯第二類錯誤。
因此,在科學(xué)研究中,人們通常指定“檢驗(yàn)概率值p=0.05”作為判斷是否承認(rèn)零假設(shè)的標(biāo)準(zhǔn)(即常講的置信度為95%)。當(dāng)p≥0.05時,就承認(rèn)零假設(shè),認(rèn)為研究對象的表現(xiàn)不顯著;只有在p < 0.05時,才拒絕零假設(shè),認(rèn)為被研究對象的表現(xiàn)是顯著的。在特定情況下,為了提升研究的標(biāo)準(zhǔn),進(jìn)一步控制“顯著性”,人們也常常把p=0.01作為拒絕零假設(shè)的標(biāo)準(zhǔn)值(即置信度為99%)。
在統(tǒng)計學(xué)中,p=0.05這個標(biāo)準(zhǔn)被稱為“置信度95%的顯著性標(biāo)準(zhǔn)”,因此也常被寫作Sig值=0.05。
2.對數(shù)據(jù)建模及模型質(zhì)量的判定——基于“模型值/偏差值”
在統(tǒng)計分析中,不論是做回歸分析還是判別分析,其實(shí)都是力圖創(chuàng)建一個盡可能與測量數(shù)據(jù)很好地擬合的數(shù)據(jù)模型——創(chuàng)建并檢驗(yàn)?zāi)P唾|(zhì)量的過程就是建模。對于模型的質(zhì)量,人們通常利用“模型值/誤差值”(即效應(yīng)值)來判定模型的有效程度,這一思路貫穿了統(tǒng)計分析的各個過程,只是在不同的模塊中可能呈現(xiàn)為不同的具體形態(tài)。
例如,在兩次抽樣數(shù)據(jù)的差異顯著性檢驗(yàn)中,人們常常使用兩個均值的差與其標(biāo)準(zhǔn)誤(即SE)的比值來判定兩個數(shù)據(jù)序列是否存在顯著性差異。事實(shí)上,若兩個序列的均值之差遠(yuǎn)大于標(biāo)準(zhǔn)誤SE,則表示這兩個序列之間的差距遠(yuǎn)遠(yuǎn)大于各個組的組內(nèi)正常波動,即組間的差異值不是由組內(nèi)正常波動而引起的,組間的差別應(yīng)是由分組所導(dǎo)致的。這就是非常重要的T檢驗(yàn)的核心思想。對應(yīng)的公式如式1-1所示。注意,公式中的Xa和Xb分別表示兩個序列的均值,SE則代表著抽樣數(shù)據(jù)的標(biāo)準(zhǔn)誤。
??式1-1
在線性回歸分析的處理中,通常需要根據(jù)已有的數(shù)據(jù)創(chuàng)建回歸方程,即基于已有數(shù)據(jù)建構(gòu)模型。在完成了建模后,根據(jù)模型計算出的數(shù)值稱為回歸值(即期望值),而原始數(shù)據(jù)(觀測值)與回歸值之間的差被稱為殘差,也可以稱之為誤差。回歸值越接近對應(yīng)的觀測值越好。因此人們用“回歸值的均方和”與“殘差均方和”的比值(簡稱F值)來評價回歸方程的質(zhì)量。這個比值越大,表示回歸方程的影響力越大,回歸效果越好。在理想情況下,回歸方程能夠完全擬合測量值,則相應(yīng)的“殘差均方和”為0,導(dǎo)致F值為無窮大。評價線性回歸質(zhì)量的計算方法如式1-2所示。
??式1-2
同理,判別分析也借助了與此相似的評價方式,通過殘差與有效數(shù)據(jù)的比值來反映判別效果,這個比值(Wilks Lamda值,即威爾克斯λ值)越小,表示判定效果越有效。
注意:
本節(jié)為了闡述統(tǒng)計分析的一些基本思路而提及了較多的術(shù)語,對于這些術(shù)語,讀者可暫時只是記憶,但不做深入理解,后續(xù)將進(jìn)行詳細(xì)的解讀。
- 大數(shù)據(jù)技術(shù)基礎(chǔ)
- Microsoft SQL Server企業(yè)級平臺管理實(shí)踐
- SQL Server入門經(jīng)典
- Modern Programming: Object Oriented Programming and Best Practices
- Visual Studio 2015 Cookbook(Second Edition)
- Redis應(yīng)用實(shí)例
- Spark大數(shù)據(jù)分析實(shí)戰(zhàn)
- MySQL 8.x從入門到精通(視頻教學(xué)版)
- 大數(shù)據(jù)技術(shù)入門
- 深入理解InfluxDB:時序數(shù)據(jù)庫詳解與實(shí)踐
- Hadoop 3實(shí)戰(zhàn)指南
- 數(shù)據(jù)庫查詢優(yōu)化器的藝術(shù):原理解析與SQL性能優(yōu)化
- 工業(yè)大數(shù)據(jù)融合體系結(jié)構(gòu)與關(guān)鍵技術(shù)
- MySQL性能調(diào)優(yōu)與架構(gòu)設(shè)計
- Arquillian Testing Guide