官术网_书友最值得收藏!

2.8 協方差和相關性

有時變量之間可能相互關聯,例如,一個變量告知我們室外溫度,另一個變量告知我們是否會下雪。如果溫度很高,就不會下雪,所以通過對其中一個變量的了解可以知道另一個變量的一些信息。在這種情況下,這種關系是負相關的:隨著溫度的升高,下雪的可能性降低;反之,下雪的可能性升高。

而另一個變量也可能是在告訴我們在當地河里游泳的人的人數,溫度和游泳人數之間的聯系就是正相關的,因為在溫暖的日子里我們會看到更多人游泳,反之,則沒有那么多人游泳。

能夠找到這些關系并確定兩個變量之間的聯系的緊密程度是很有用的。

2.8.1 協方差

假設有兩個變量,我們注意到它們之間有一個特定的模式:當其中任意一個變量的值增加時,另一個變量的值就會以這個增加數量的固定倍數增加;而當任意一個變量減小時,同樣的事情也會發生。例如,假設變量A增加3,變量B就增加6;之后,B增加4,A會增加2;然后A減小4,B會減小8。在每一個例子中,B增加或減小的量都是A增加或減小的量的2倍,所以固定倍數是2。

如果我們在兩個變量之間發現了這樣的一種關系(任何倍數都可以,而不僅是2),就稱這兩個變量是共變的,我們用協方差(covariance)來衡量兩個變量之間的這種聯系的強度。

如果我們發現一個值增加而另一個值也增加,那么協方差就是一個正數。這兩個變量的步調越一致,協方差就越大。

討論協方差的經典方法是繪制一個圖,并在這個二維圖形上繪制一些點,如圖2.22所示。這種圖稱為散點圖。坐標軸被標記為xy,用于替代我們感興趣的兩個變量。

(a)                       (b)

圖2.22 對協方差的闡述。(a)沿x軸從左到右的每一對點在y軸方向上的變化量大致相同,這是正的協方差;(b)x軸方向的值有一點多變,說明正協方差較弱

假設x是第一個值,y是第二個值。如果x增加時(在圖2.22中是指點向右移動)y也增加(在圖2.22中是指點向上移動),就說這兩個變量有著正協方差(positive covariance)。y的變化與x的變化越一致,協方差就越大。

一個非常大的正協方差表明這兩個變量是一起變化的,所以每當它們中的一個改變了一個給定的量,那么另一個也會改變一個不完全相同但是又趨于一致的量。

此外,如果一個值隨著另一個值的增加而減小,就說變量有負協方差(negative covariance),如圖2.23所示。

(a)                       (b)

圖2.23 x軸方向上相鄰兩點在y軸方向上的變化總是大致相同的,但是當x變大時,y就會變小,這種形式的關聯就稱為負協方差

如果兩個變量之間完全沒有一致的、能夠相互匹配的變化,就說它們之間的協方差為0,如圖2.24所示。

(a)                       (b)

圖2.24 這兩組數據點的協方差都為0。如果我們沿著x軸從一點移動到另一點,y值在大小和方向上的變化都沒有一個統一的規律

我們所說的協方差思想只在變量之間的變化是彼此的倍數時才有效。如圖2.24b所示,數據之間可能存在一個清晰的關系(這里的點構成了一個圓的一部分),但是協方差仍然為0,因為它們之間的變化是不一致的。

2.8.2 相關性

協方差是一個有用的概念,但存在一個問題:由于它的定義方式,它沒有考慮過兩個變量的單位,這使得我們很難確定數據之間的相關性的強弱。

例如,假設我們需要測量一把吉他上的12個變量:木頭的厚度、琴頸的長度、音符共鳴的時間、琴弦的張力等。我們有可能找到這些測量值兩兩之間的協方差,但無法通過比較它們來確定哪一對數據的關系最強(或是哪一對最弱),因為它們的單位不同——木材的厚度可能以毫米為單位,琴弦共振的時間可能以秒為單位,等等。我們會得到每對測量值的協方差,但是無法比較它們。

我們實際能夠了解到的只有協方差的符號:正值表示正相關,負值表示負相關,0 表示不相關。

只有符號能為我們提供價值是有問題的,因為我們想要比較不同的變量集。那樣我們才能從中找到有用的信息,如哪些變量之間有著最強的正相關和負相關,而哪些變量之間有著最弱的正相關和負相關。

為了得到一個可以進行上述比較的度量值,我們可以通過計算得到一個與之前稍稍不同的數字,稱為相關系數(correlation coefficient),或者稱相關性(correlation)。這個值只要在計算協方差時增加一個步驟就能得到。通過這步計算,我們會得到一個不依賴于變量單位的數字。我們可以把相關系數看作縮小版的協方差,其值在?1~1。

由于相關系數很好地避免了單位的問題,因此要比較不同變量集合的關系的強度時,相關系數就是一個很好的工具。

因為相關系數永遠不能超出?1~1這個范圍,所以我們只需要關心1、?1和它們之間的值?!?”說明數據完全正相關(perfect positive correlation),而“?1”說明數據完全負相關(perfect negative correlation)。

完全正相關的數據很容易看出來:所有點都沿著一條直線下降,從東北角到西南角,如圖2.25所示。

(a)                      (b)

圖2.25 兩相鄰點之間向右移動和向上移動的量是一樣的,這兩個圖都展現了完全正相關關系(或者說相關系數為1)

那么,點與點之間什么樣的關系會得到正相關關系,即相關系數在0和1之間呢?這種情況是:y值會隨著x的增加而增加,但是增加的比例不會是常數,我們甚至無法預測這個增加比例會發生多大的變化,但是知道x的增加會導致y的增加,而x的減小也會導致y的減小。圖2.26為一些相關系數在0~1的正相關的點的點圖,這些點越接近直線,那么它們的相關系數就越接近1。如果這個值接近于0,相關性就很弱(或者說是很低);如果它在0.5附近,相關性就是中等的;如果它在1附近,相關性就很強(或者說是很高)。

(a)                     (b)                     (c)                       (d)

圖2.26 正相關性逐漸降低的示例。從(a)中接近1的值開始,(b)、(c)、(d)中的相關性相繼變低。一般來說,點離直線越近,相關性越高

現在我們看看相關系數為0時的情況。不相關意味著一個變量的變化與另一個變量的變化沒有關系,我們無法預測接下來會發生什么(或者說下一個點的位置)?;仡櫼幌戮蜁l現,相關性只是協方差的縮小版,當協方差為0時,相關性也為0。圖2.27展示了一些相關性為0的點。

(a)                           (b)

圖2.27 這些點的相關性為0。這些點向右移動時,垂直方向上并沒有出現一致的運動

負相關和正相關一樣,只是變量是反向變化的:當x增加時,y減小。一些負相關的例子如圖2.28所示。

(a)                (b)                (c)               (d)

圖2.28 (a)為相關系數接近-1的情況。從(b)到(d),負相關系數逐漸向0靠近

與正相關類似,如果相關系數接近于0,相關性就很弱(或者說是很低);如果它在?0.5附近,相關性就是中等的;如果它在?1附近,相關性就很強(或者說是很高)。

最后,圖2.29展示了數據集完全負相關的(或者說相關系數為-1)的情況。

(a)                       (b)

圖2.29 這些圖均為完全負相關(或者說相關系數為-1)。每向右移動到下一個點,下降的量均相同

還有幾個術語值得一提,因為它們會不時地出現在文檔和文獻中。如前所述,對于兩個變量的討論通常稱為單相關(simple correlation)。我們也可以找到更多變量之間的關系,這稱為多重相關(multiple correlation)。如果我們有一堆變量,但是只研究其中兩個變量是如何相互影響的,就稱為偏相關

如果兩個變量呈現完全正相關或是完全負相關關系(即相關系數的值為+1和?1),就稱這兩個變量是線性相關(linear correlation)的,因為(正如我們所看到的那樣)所有點位于一條線上。其他任何相關系數描述的變量則稱為非線性相關(non-linear correlation)的。

圖2.30總結了線性相關中不同值的含義。

(a)                (b)                (c)                (d)              (e)

圖2.30 線性相關中不同值的含義

主站蜘蛛池模板: 广宗县| 金堂县| 孟津县| 惠安县| 治多县| 澄江县| 孝昌县| 岳阳市| 桐乡市| 扎兰屯市| 镇江市| 睢宁县| 宝应县| 长宁区| 奉贤区| 茶陵县| 侯马市| 红原县| 宜都市| 合作市| 上犹县| 康保县| 化隆| 九龙县| 苏州市| 东山县| 大名县| 阿坝| 济南市| 榆林市| 聊城市| 德庆县| 农安县| 凯里市| 改则县| 科技| 海原县| 曲阳县| 阿合奇县| 吉林市| 彰化县|