- 深度學習:從基礎到實踐(全2冊)
- (美)安德魯·格拉斯納
- 647字
- 2022-12-20 18:34:13
2.9 Anscombe四重奏
本章的統計數據告訴了我們關于數據的很多信息,但并不意味著統計數據告訴了我們一切。
有一個我們被統計數據愚弄的著名例子:有4個不同的二維數據集合,它們看起來一點都不像,但都有相同的均值、方差、相關系數和擬合直線。這些數據以發明這4個數據集的數學家命名([Anscombe73]),稱為Anscombe四重奏(Anscombe’s quartet)——它們的值可以在網上很輕松地獲得([Wikipedia17a])。
圖2.31展示了這4個數據集以及它們的最佳擬合直線。

圖2.31 Anscombe四重奏中的4個數據集以及它們的最佳擬合直線
這4個數據集的驚人之處在于每個數據集中x值的均值均為9.0,y值的均值均為7.5,每組x值的標準差均為3.16,每組y值的標準差均為1.94。每個數據集中x和y之間的相關系數均為0.82,而每個數據集的最佳擬合直線在y軸的截距均為3,斜率均為0.5。
換句話說,4個數據集的7個統計度量都具有相同的值。實際上,如果我們在這4幅圖上延伸出更多數據,有的統計度量值就會產生不同,但是它們依然非常接近,所以幾乎可以認為它們是一樣的。
圖2.32疊加了4個數據集中的所有點以及它們的最佳擬合直線。因為4條最佳擬合直線是一樣的,所以我們在圖中只能看到1條。

圖2.32 Anscombe四重奏的4個數據集以及其最佳擬合直線的疊加
Anscombe四重奏的寓意是:不要認為統計數據透露了關于任何一組數據的全部情況。得到了一組數據的統計信息是一個很好的起點,但是統計數據不能告訴我們需要知道的一切。要想很好地利用數據,我們還需要仔細觀察并且深入理解它。
這4個數據集雖然有名,但并不特別。如果我們想,就可以制作出更多具有相同(或近乎相同)統計數據的不同數據集([Matejka17])。