- 科研統計思維與方法:SPSS實戰
- 馬秀麟
- 1499字
- 2024-09-10 16:37:00
1.2.2 統計推斷的主流技術
目前用得最多的統計推斷技術主要有關聯性分析、差異顯著性檢驗、聚類分析、降維分析、信度和效度檢驗、主成分分析等多種。
1.關聯性分析
關聯性分析是指對兩個或多個可能具備相關性的變量進行分析,從而衡量變量之間相關關系的密切程度。相關關系的密切程度可以分為高度一致性(即高度正相關關系)、高度相反性(即高度負相關關系)、不相關。
從關聯性分析包含的策略看,關聯性分析包含相關性分析和回歸分析兩個層次。
在統計分析學中,對兩個數據序列相關性的分析主要通過相關系數r和相關性檢驗概率p值兩個指標來體現。其中,相關系數r的絕對值在0到1之間,反映兩列數據的關聯程度;p值則為不相關的概率值。
若變量之間的關聯性可以用一個函數式表達出來,那么人們把探索這個函數式的過程稱為回歸分析,把這個函數式稱為回歸方程。借助回歸方程,一方面能夠表達變量間相互影響的關系,另一方面還能用于預測。
隨著大數據時代的來臨,由于數據之間的關聯常常為多維的、雙向的,因此針對數據之間的內在邏輯,人們更加關注其關聯性,而不是其中的因果關系。
2.差異顯著性檢驗
差異顯著性檢驗簡稱為差異性檢驗,用于判斷兩個數據序列是否存在顯著的差別。數據序列的差異顯著性檢驗分為均值差異性和分布差異性兩種形式。對于具有正態分布形態的兩列連續型數據,通常可檢驗其均值差異性,即通過檢查均值之間的差異程度判斷其差異是否很顯著;而對不明形態或非正態分布的數據,則常常檢查其分布差異性。
差異顯著性檢驗是一種推斷檢驗。通常首先假設兩列數據之間沒有顯著差異,通過計算相應的統計量判斷無顯著差異的可能性(即概率p值)。在統計學中,通常以0.05為界限(即95%的置信度),若兩列數據無顯著差異的檢驗概率值p大于0.05,則承認原假設,即兩列數據之間沒有顯著差異;反之,若兩列數據無顯著差異的檢驗概率值p小于0.05,則認為它們之間具有顯著差異。
3.降維分析
在調查或研究過程中,常常需從多個視角制作調查或評價指標,從而能夠全面地反映調查對象的屬性和特點。然而,調查完成后,研究者經常發現指標項非常多,難以凝練出較為簡練的結論,或者因多個指標項的語義存在嚴重重疊,導致語義關系不清晰,這就需要基于數據進一步凝練指標項,以使研究結論維度更少,語義更清晰。
簡而言之,降維就是減少評價指標的維度,進一步凝練指標項的過程,從而使結論變得更加易于表述和理解。
4.聚類分析
在數據統計與分析過程中,常常需要把成千上萬的個案分成若干類,以便于操作。例如,人們把學生分為男生、女生,就是一種分類,還可以把學生按照綜合表現分為優等生、良好生、普通生和差生,這也是一種分類。這種僅僅基于單個變量的分類非常簡單,一目了然。然而,如果分類依據非常復雜,需要基于多個變量的取值來實施分類,那么其操作就需要專門的算法。
這種依據多個因素變量的取值,對個案分類的過程就是聚類分析,也叫分類分析。所以,聚類分析就是分析收集到的數據,根據其內在規律和特點,把相似的數據歸結為一類,從而形成多個類別的過程。
在數據統計分析過程中,聚類分析可以分為針對個案(記錄)的分類和針對變量(字段)的分類。針對變量的聚類過程實際上也是一種降維過程。
5.信度和效度檢驗
信度是反映數據可靠性的指標,用于反映數據是否可靠,是不是測量對象的真實反映;而效度是反映測量依據有效性的指標,效度通常由測量工具的有效性來體現。例如,以天平測量物體的質量,天平是有效的測量工具,那么這次測量效度就高。
6.主成分分析
主成分分析是從描述客觀事物的若干變量中抽取其關鍵信息的統計分析方法,其作用是把描述某一類別客觀事物的若干變量用較少的、更簡潔的幾個潛變量描述出來。
- 數據庫應用實戰
- 數據挖掘原理與實踐
- Lean Mobile App Development
- 智能數據分析:入門、實戰與平臺構建
- Hands-On Mathematics for Deep Learning
- Oracle PL/SQL實例精解(原書第5版)
- Construct 2 Game Development by Example
- Python數據分析從小白到專家
- Gideros Mobile Game Development
- Unity Game Development Blueprints
- 數據應用工程:方法論與實踐
- Oracle 11g數據庫管理員指南
- MySQL性能調優與架構設計
- Configuration Management with Chef-Solo
- 達夢數據庫集群