- 科研統計思維與方法:SPSS實戰
- 馬秀麟
- 1069字
- 2024-09-10 16:37:01
1.2.3 統計分析技術及其應用領域
1.統計分析的兩種思路——數據分析與數據挖掘
數據統計分析的發展遵循兩條思路。其一,面向靜態數據的數據分析(Data Anlaysis,DA);其二,面向動態數據的實時數據挖掘(Data Mining,DM)。
所謂面向靜態數據的數據分析,是指借助數據分析專業軟件,對通過社會調查、科學實驗所獲得的數據,或者對從信息系統導出的某一時間段的數據進行分析。這種分析很少考慮數據的動態性、過程性和變化性,往往是針對某一時間段的狀態所做的數據分析。
所謂面向動態數據的實時數據挖掘,是指在信息系統中集成數據挖掘算法,以便信息系統能夠隨時針對動態數據開展分析。這種技術強化時間序列特點,依托支持動態數據采集和集成的數據倉技術,開展實時的數據分析。它對用戶具有很高的要求,已經成為主流數據庫系統的重要功能。
2.大數據時代的統計分析已滲透到諸多領域
隨著“大數據熱”愈演愈烈,數據分析與數據挖掘的算法日益成熟,統計學、數據挖掘的技術手段被引入大數據處理過程中,起到了重要的作用。
首先,統計學理論被引入大數據處理領域,統計分析的手段已經變成了數據分析的常規手段。由于大數據的規模比較大,經過數據清洗的有效數據通常符合統計規律,因此信度檢驗、關聯性分析、數據離散性描述(方差、標準差)、聚類分析、主成分分析等被廣泛地應用到大數據處理的過程中。目前,這些技術已經被集成到多種計算機信息系統中,發揮著越來越重要的作用。
其次,除了傳統的數據分析技術之外,遺傳算法、神經網絡、語義網絡、分布式數據庫管理等面向大數據的處理技術也已經日益成熟。
最后,專業的數據挖掘軟件、數據推送技術快速發展。應大數據處理的要求,IBM、微軟、甲骨文(Oracle)等公司都在自己的大型數據庫管理系統(Database Management System,DBMS)中集成了數據挖掘技術,強化時間序列特點、支持數據挖掘技術的數據倉已經成為主流數據庫系統的重要組件,為基于大數據的數據挖掘提供了強大的技術支撐。
3.統計分析的算法與思維被廣泛地應用于人工智能領域
大數據、并行計算、深度學習是當代人工智能的三大要素。人工智能建立于海量優質數據和應用場景的基礎之上,基于海量數據的模型訓練是深度學習的核心策略。在這個過程中,算法的質量、訓練數據的數量、規模等因素尤為重要,豐富的海量數據集是算法模型訓練的前提。大數據一方面為人工智能提供了大量的訓練數據,另一方面還為人工智能的發展提供了優質的數據處理算法。在這個過程中,統計分析中常見的判別分析、聚類分析、回歸分析等算法是人工智能領域模式識別和模型訓練的基石,正是由于統計分析算法和統計思維的存在,人工智能才在近幾年取得如此矚目的成就。