官术网_书友最值得收藏!

3.2.2 變量異常值校正

在單個變量上,制造數據所包含的噪聲體現在變量的數據值與其變量的總體分布產生偏離,這樣的數據稱之為異常值。這些異常值會嚴重影響規范化之后的數據分布的偏度。特別是最大最小規范化對變量異常值尤為敏感,z?score規范化的結果也會受異常值影響。本章將采用Rule 3.1對變量異常值進行校正。

Rule?3.1:

If xli>ubXi,Then xli=ubXi

If xli<lbXi,Then xli=lbXi

在Rule 3.1中,ubXi和lbXi分別是變量Xi的上界和下界,用來校正變量的異常值。由于歷史數據量達到了一定規模,因此無法采用適用于小樣本的散點圖法和假設檢驗法來探測變量的異常值。對于ubXi和lbXi,本節介紹3σ法和四分展布法。

(1)3σ法

由切比雪夫不等式可知:P(|Xi-μXi|≥ε)≤σXi/ε2,當ε=3σXi,則P(|Xi-μXi|≥3σXi)≤σXi/9,當Xi服從正態分布時,P(|Xi-μXi|≥3σXi)=0.0027,由此可知,Xi以較大概率分布于以均值為中心的3σXi區間之內。因此將ubXi和lbXi設置如下:

ubXi=μXi+3σXi?(3?3)

lbXi=μXi-3σXi(3?4)

(2)四分展布法

在異常值校正中,標準差容易受到異常值的影響,因此基于上下分位數距離的四分展布法也是異常值校正的常用方法。Q3Xi是變量的上四分位數,Q1Xi是變量的下四分位數,dF是上下分位數距離,稱為極差。而ubXi和lbXi可設置如下:

dF=Q3Xi-Q1Xi(3?5)

ubXi=Q1Xi-1.5dF(3?6)

lbXi=Q3Xi+1.5dF(3?7)

主站蜘蛛池模板: 建阳市| 鄂伦春自治旗| 田阳县| 辉南县| 张家川| 仪陇县| 邵阳县| 无为县| 板桥市| 武胜县| 辉县市| 太保市| 昭觉县| 云梦县| 新龙县| 兴义市| 焦作市| 洛扎县| 宁化县| 同德县| 吉安市| 沙田区| 苍山县| 三原县| 育儿| 樟树市| 泗水县| 江川县| 台中县| 泗洪县| 新乡市| 肥西县| 东台市| 平潭县| 武川县| 永和县| 阳城县| 马公市| 洛川县| 理塘县| 泰顺县|