- 從零進階!數據分析的統計基礎(第2版)
- 經管之家主編 曹正鳳編著
- 2156字
- 2021-10-29 11:59:49
2.1 直方圖
問題引入:如果給出400多名三國時期人物的武力數據,則如何從這些數據中隨機找出50名武力相當的武將。
2.1.1 什么是直方圖
面對大量的數據,人們通常希望得到數據的大致情況,為了概括數據,統計學家經常使用一種叫作直方圖的圖像。此圖像由一批長方形構成,通過長方形的面積或高度來代表對應組在數據中所占的比例。
直方圖有兩種類型:當用長方形的面積代表對應組的頻數與組距的比時,則稱為頻率分布直方圖;當用長方形的高代表對應組的頻數時,則稱為頻數分布直方圖。一般情況下,由于組距是一個常數,為了畫圖和看圖方便,通常直接用高表示頻數,很多軟件的直方圖都是頻數分布直方圖,但嚴格統計意義上的直方圖都是指頻率分布直方圖,而且統計意義上的直方圖沒有縱向刻度。如圖2.1所示為三國時期人物武力頻率分布直方圖。

圖2.1 三國時期人物武力頻率分布直方圖
2.1.2 如何看直方圖
觀看直方圖的關鍵是看區間對應面積的大小。在頻率直方圖中,長方形的面積可以看成該區間中三國人物的密集程度,長方形的面積越大,說明三國人物在該區間的人數越多,因此,武力在70~80的面積最大,說明三國人物武力在70~80的人數較多,占總人數的24.34%左右。而武力在20~30的面積和武力在30~40的面積相等,因此武力介于兩者之間的人數相當。
2.1.3 如何畫直方圖
直方圖的畫法包括三步:第一步對數據進行分區;第二步畫一條水平軸;第三步畫長方形。
在進行分區時,找出給定數據的最大值和最小值,然后根據最大值和最小值設計出合理的等距區間。本例中的三國人物一共有423個,對應有423個武力數據,最大值是100,最小值是1,因此以每10點武力為一個區間,共分10個區間,每個區間的對應比率如表2-1所示。
表2-1 三國人物武力分布表

注:小組區間包含左端點,但不包含右端點(最后一個區間包含右端點)。
對水平軸的畫法需要注意平均分布,有些數據的區間分布本身就不平均,在畫直方圖時容易出錯,如圖2.2和圖2.3所示。

圖2.2 直方圖水平軸的錯誤畫法

圖2.3 直方圖水平軸的正確畫法
由于小組區間的面積為區間所占總數的百分比,因此在計算小組區間上的長方形的高度時,應將百分數除以區間的長度,由此繪制出來的所有長方形的面積之和為1,其對應的刻度稱為密度尺度,繪制在直方圖的左邊。加上密度尺度后,三國時期人物武力頻率分布直方圖如圖2.4所示。(如果密度尺寸代表高度,那么面積就是高度×區間長度,這樣算面積加起來應該是10,應該要補充說明或者修改一下。)

圖2.4 三國人物武力頻率分布直方圖(加密度尺度)
從圖2.4可以看出,在70~80的武力區間上,三國人物武力分布的面積最大,即該部分的人數也最多,因此可以從此區間中隨機挑選50名武將,其武力都相差不會太大。當然,如果對武力要求不是嚴格限定,當某一區間的人數大于50時,都可以成為被選擇的區間。
2.1.4 使用Excel 2013進行直方圖的繪制
使用Excel 2013進行直方圖繪制的步驟如下。
將附錄中的三國人物數據錄入Excel中,設置該Excel文件的文件名為“三國人物數據.xlsx”(本書后續章節中大部分的演示數據都使用該數據,或者從此數據文件中進行篩選,后面就直接叫此文件名,不再一一描述其生成過程)。將數據中人物的武力數據排成一列,范圍為D1:D424。輸入分組標志,本例中為M2:M11,分別是10、20、30、40、50、60、70、80、90、100,如圖2.5所示。
然后利用直方圖分析工具進行分析,具體操作步驟如下。
第一步:單擊“工具”菜單,選擇“數據分析”選項,打開“數據分析”對話框。從“分析工具”列表框中選擇“直方圖”選項,如圖2.6所示。
第二步:打開“直方圖”對話框,確定輸入區域、接收區域和輸出區域,選中“標志”復選框的原因是輸入區域和接收區域的第一行都是“變量”名稱,在數理統計中稱“變量”為標志,結果如圖2.7所示。

圖2.5 錄入數據

圖2.6 “數據分析”對話框
(1)在“輸入區域”輸入框中輸入待分析數據區域的單元格引用,若輸入區域有標志項,則選中“標志”選項;否則,系統自動生成數據標志。在“接收區域”輸入框中輸入接收區域的單元格引用,如果該輸入框為空,則系統自動利用輸入區域中的最小值和最大值建立平均分布的區間間隔的分組。本例中的輸入區域為$D$1:$D$424,接收區域為$M$1:$M$11。

圖2.7 “直方圖”對話框
(2)在“輸出選項”輸入框中可選擇輸出去向,輸出去向類似于“抽樣”對話框的輸出去向。本例中的“輸出區域”為$O$14:$T$34,即將結果保存到本工作表的某個區域。
(3)選擇“柏拉圖”選項可以在輸出表中同時按降序排列頻數數據;選擇“累積百分率”選項可以在輸出表中增加一列累積百分比數值,并繪制一條百分比曲線;選擇“圖表輸出”選項可以生成一個嵌入式直方圖,此處僅選擇“圖表輸出”。
第三步:單擊“確定”按鈕,在輸出區域單元格中可得到頻數分布直方圖,如圖2.8所示。

圖2.8 頻數分布直方圖
第四步:將條形圖轉換成標準直方圖。具體做法為:將現在的頻數轉換為頻率,即將當前的頻率都除以423(此數是總的人物個數),就得到了每個區域的頻率;然后求每個分區的密度尺度,由于區間大小一致,因此頻率就是每個分區的密度尺度;設置直方圖的間距為零,單擊條形圖中的任意一個直條,再右擊,在彈出的快捷菜單中選擇“設置數據系列格式”命令,在設置“數據系列格式”對話框中選擇系列選項標簽,將分類間距調節為0即可,單擊“確定”按鈕;最后選擇修改圖表標題、縱橫軸標題和邊框顏色選項。得到的直方圖結果如圖2.9所示。

圖2.9 三國人物武力直方圖
- Hands-On Data Structures and Algorithms with Rust
- 達夢數據庫編程指南
- Game Development with Swift
- iOS and OS X Network Programming Cookbook
- Spark核心技術與高級應用
- Microsoft Power BI數據可視化與數據分析
- 達夢數據庫運維實戰
- Access 2016數據庫應用基礎
- Unity Game Development Blueprints
- Unity for Architectural Visualization
- 數據迷霧:洞察數據的價值與內涵
- 數據庫基礎與應用
- Configuration Management with Chef-Solo
- Nagios Core Administrators Cookbook
- SQL必知必會(第5版)