mg冰球突破1000押注

書名：深度學習：從基礎到實踐（全2冊）
作者名： (美)安德魯·格拉斯納
本章字數： 647字
更新時間： 2022-12-20 18:34:13

2.9　Anscombe四重奏

本章的統計數據告訴了我們關于數據的很多信息，但并不意味著統計數據告訴了我們一切。

有一個我們被統計數據愚弄的著名例子：有4個不同的二維數據集合，它們看起來一點都不像，但都有相同的均值、方差、相關系數和擬合直線。這些數據以發明這4個數據集的數學家命名（[Anscombe73]），稱為Anscombe四重奏（Anscombe’s quartet）——它們的值可以在網上很輕松地獲得（[Wikipedia17a]）。

圖2.31展示了這4個數據集以及它們的最佳擬合直線。

圖2.31　Anscombe四重奏中的4個數據集以及它們的最佳擬合直線

這4個數據集的驚人之處在于每個數據集中x值的均值均為9.0，y值的均值均為7.5，每組x值的標準差均為3.16，每組y值的標準差均為1.94。每個數據集中x和y之間的相關系數均為0.82，而每個數據集的最佳擬合直線在y軸的截距均為3，斜率均為0.5。

換句話說，4個數據集的7個統計度量都具有相同的值。實際上，如果我們在這4幅圖上延伸出更多數據，有的統計度量值就會產生不同，但是它們依然非常接近，所以幾乎可以認為它們是一樣的。

圖2.32疊加了4個數據集中的所有點以及它們的最佳擬合直線。因為4條最佳擬合直線是一樣的，所以我們在圖中只能看到1條。

圖2.32　Anscombe四重奏的4個數據集以及其最佳擬合直線的疊加

Anscombe四重奏的寓意是：不要認為統計數據透露了關于任何一組數據的全部情況。得到了一組數據的統計信息是一個很好的起點，但是統計數據不能告訴我們需要知道的一切。要想很好地利用數據，我們還需要仔細觀察并且深入理解它。

這4個數據集雖然有名，但并不特別。如果我們想，就可以制作出更多具有相同（或近乎相同）統計數據的不同數據集（[Matejka17]）。

官术网_书友最值得收藏!

深度學習：從基礎到實踐（全2冊）

2.9 Anscombe四重奏

2.9　Anscombe四重奏