- 基于大數據的經濟分析
- 史丹主編
- 1772字
- 2021-10-30 02:43:38
第三節 主要研究方法介紹
由于絕大部分大數據原始狀態為非結構化數據[Gandomi和Haider(2015)認為95%以上的大數據都是非結構化的],如何處理海量的非結構化數據、從中獲取有效信息是經濟學家面臨的關鍵問題。與傳統經濟研究的方法相比,基于大數據方法的特征主要體現在數據抓取和數據分析方面。
一 數據抓取(數據挖掘)
不同于傳統上經濟學家被動依靠政府、機構發布的結構化數據或者主動對結構化數據操作,基于大數據研究經濟首先要解決的是如何主動從不同渠道、海量、不斷變動的非結構化數據中提取可直接用于分析的有用數據。目前對數據挖掘認同率較高的表述為從大量非結構化數據集中找到隱藏的信息:將大量數據作為輸入,隱藏信息作為過程的輸出,整個挖掘過程就是從輸入到輸出的一個映射。許偉(2016)認為根據數據挖掘的對象不同可分為網絡結構挖掘、內容挖掘和應用挖掘:結構挖掘是通過分析網頁之間的某個鏈接及與這個鏈接相關的網頁數和相關對象,進而建立起網絡鏈接結構模型;內容挖掘是通過分類和聚類技術,從頁面內容本身提取到有價值的信息;應用挖掘從用戶的行為信息中推斷用戶的特征。
由于來自互聯網的大數據主要是記錄人們行為的文本,自然語言處理算法(Natural Language Processing)得到大量應用,它是指讓計算機像人類一樣能讀懂人類的文本,從非結構化的文本數據中提取有效信息。目前使用較廣泛的NLP算法有:情感分析(Sentiment Analysis,SA)、主題模型(Latent Semantic Analysis,LSA)、潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)、詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)、詞嵌入(Word Embeddings,WB)、數據匹配算法(Data Matching,DM)等。
數據挖掘的一般過程是(劉濤雄,2015):借鑒抽樣估計、人工智能、機器學習的搜索算法、建模技術和學習理論,利用網絡爬蟲軟件通過云計算等分布式并行計算方法從網絡抓取原始數據,然后通過探索性數據分析(Exploratory Data Analysis,EDA)和一致性檢驗清洗數據,過濾大量無用的噪聲數據,保留值得加工的信息,最后對剩下內容進行加工提取,轉化為一定程度結構化的可用數據,如標準化的時間序列等。數據清理并無規章可尋,實踐中的主流數據清理工具有OpenRefine和DataWrangler。Varian(2014)總結了目前主流的用于數據挖掘的開源工具,如表2—1示。
表2—1 數據挖掘工具
二 數據分析
從數據中建模是大數據分析的關鍵,包括數據集降維、尋找數據間的關系。傳統上經濟學家大量應用線性和邏輯回歸等算法建立數據間的聯系,Varian(2014)認為針對大數據分析發展起來的一系列機器學習算法能更有效地處理海量數據問題。目前的大數據建模方法主要有兩類:有監督學習(Supervised Learning)、無監督學習(Unsupervised Learning),有監督學習通過建立回歸、分類模型,尋找輸入數據和輸出數據間的關系,根據輸入推斷輸出;無監督學習通過聚類模型等尋找輸入數據之間的關系或結構,構建描述數據行為的規則。目前有監督學習算法在經濟研究中現時預測和鄰近預測中應用更廣,包括:決策樹(Decision Trees,DT)、支持向量機(Support Vector Machine,SVM)、人工神經網絡(Artificial Neural Networks,ANN)、深度學習(Deep Learning,DL)等算法。為解決樣本數據過度擬合、維數過高、模型對樣本外數據卻表現欠優的問題,經濟學家提出了添加隨機量的集成算法(Ensemble Algorithms,EA)以解決過度擬合和降維問題,這些方法包括自舉法(Bootsratp)、裝袋方法(Bagging)、提升算法(Boosting)、隨機森林(Random Forests)、屬于正則化方法的套索算法(Least Absolute Shrinkage and Selection Operator,LASSO)、彈性網絡(Elastic Net,EN)、嶺回歸(Ridge Regression,RR)、貝葉斯方法(Bayesian Methods,BM)、貝葉斯模型平均算法(Bayesian Model Averaging,BMA)、樸素貝葉斯(Naive Bayes,NB)、釘板回歸(Spike-and-Slab Regression,SSR)等算法作為對線性回歸的補充,在處理面板數據、縱向數據、時間序列數據上,經濟學家提出了貝葉斯結構時間序列算法(Bayesian Structure Time Series,BSTS)作為對傳統自回歸(AR)和平均回歸(MR)模型的補充。
為檢驗數據建模的準確性,經濟學家一般把數據分為訓練集和測試集,用訓練集建立模型,用測試集檢驗模型,當數據容量足夠大時可分為三部分:訓練集、驗證集合測試集。鑒于大數據復雜特性,經濟學家在機器學習中采用K折交叉檢驗(K-Fold Cross-Validation),數據被劃分為K個子集,模型擬合K次,每一次都用K-1個訓練集、剩下1個用于預測測試,當每個子集僅有一個觀測量時便退化為一次性交叉檢驗(Leave-one-out Cross Validation)(Blazquez等,2017)。從文獻上看,目前階段經典計量經濟學的擬合優度判定系數R2、Hosmer-Lemeshow(HL)擬合優度檢驗、馬洛斯Cp檢驗(Mallows’ Cp)、赤池信息量準則(Akaike Information Criterion,AIC)、貝葉斯信息量準則(Bayesian Information Criterion,BIC)、偏差和對數似然檢驗等檢驗方法仍用于對基于大數據建立模型的檢驗。