- 白話大數據與機器學習
- 高揚 衛崢 尹會生等
- 3573字
- 2019-01-03 16:36:47
4.1 加和值、平均值和標準差
上學是每個人幾乎都經歷過的過程,拿來做例子也許會更加親切。
假設在一所高中,有3個年級,每個年級有10個班,每個班有40到60個學生不等。要對這些老師和學生進行管理喊口號是不好使的,作為學校的教學主任,他需要了解這些學生的學習情況,知道學生學習成績的變化,老師教學水平的高低,以及調整的方式(圖4-1)。
最早的考試不知道是哪位聰明人發明的,因為考試是一種天然有著“數字化管理”基因的東西,天然就是一種指標坯子。例如,一次學校期末考試以后,所有的學生成績都匯總上來,假設考試的科目有語文、數學、英語3個學科,一個包含1000多個學生的四五千個單位的數據就會擺在這位教學主任的眼前(圖4-2)。
倘若你現在就是這位教學主任,需要你和校長匯報一下這次考試各班的情況如何,你會怎么辦?

圖4-1 學生管理

圖4-2 學生成績匯總
把所有的學生的每一門課的成績都逐個給校長讀一遍?恐怕是要花費太多的時間,搞不好開始匯報還沒有3分鐘校長已經睡著了。
4.1.1 加和值
這里插入一段小小的聯想,想想平時到超市里購物最后在收銀臺做了什么事情。收銀員把每件貨品的價格加和,不管是10件還是20件還是更多,最終只給出一個價格的合計值。顧客按照這個合計值付賬一次性結束整個交易,而這顯然是比對每件貨品都單獨結算一次的時間成本低很多的。這里面用到統計學的知識了嗎?用到了,只是它太稀松平常了以至于人們幾乎沒有意識到而已。這種用一個加和值來概括性地描述一群事物的方法幾乎不需要教學就能直觀地實現早市上那些即便沒有什么學歷的菜販也不用非要找個數學老師來系統教學一下或者深造一個統計學專業的文憑才能開始給買菜大媽們報價和賣菜吧。所以使用一個性狀數值的加和值來對一群事物進行描述是一種非常自然的描述方式(圖4-3),這簡直太棒了。

圖4-3 價格加和
這種例子其實到處都是,如平時說的GDP(Gross Domestic Product,國內生產總值,我們常常口口相傳的國民生產總值實際是GNP——Gross National Product),再如“上個月我出差一共花了2000元”,這都是非常典型的用總和值來進行概括描述的例子。人們不需要具體闡述千萬個工廠每個工廠有多大產值,千萬家公司每家公司有多大產值;或者出差吃某一頓飯花了多少錢,坐出租車某一次花了多少錢,這種細節的陳述太繁瑣。這就是人們從加和值描述中得到的最大好處——直奔主題,只關心人們最關心的總和數字,忽略里面的細節。通常把加和值的概念用希臘字母∑來表示,讀作“西格瑪”,后面還會經常碰到這個標記。
然后再回來看一下教學主任的問題。是不是也可以很自然地先想到,干脆用一個加和值來描述,這一個班所有的學生所有的成績加起來一共多少分。如果真的這么做了會出現什么情況?
“一年級一班分數總和9600分,一年級二班分數總和13500分……”這一描述看上去是非常簡潔的,但是這種描述帶來的信息幾乎沒有什么價值。可以根據這個數值比較說一年級二班的學生比一年級一班的學生學習好嗎?直觀去看的話,這種似乎感覺很奇怪,但是怎么個奇怪法呢?
事實上可能是這樣,一年級一班有40名學生,每個人3門功課每一門都是80分;一年級二班有60名學生,每個人3門功課每一門都是75分。需要陳述到這個級別才能明確究竟哪個班更好,這顯然和我們用簡潔數值做描述的初衷背道而馳。對學生成績的描述如果能夠成為對整個班級的成績概括描述,同時兼有對每個個體的描述,套用現在流行的一句話——“那真是極好的”。有這樣一種數嗎?有的,如平均值。
4.1.2 平均值
平均值的計算方法大家肯定很熟悉,我們在學生時代就已經經歷過無數的例子。上述例子就是以班級為單位把每個人的每門課程加在一起除以總的學生數量,再除以課程數量。
“一年級一班有40名學生,3門課程平均分為80分”。
“一年級二班有60名學生,3門課程平均分為75分”。
“一年級三班有50名學生,3門課程平均分為80分”。
從這里基本還是能得到一個清晰的感性認識,那就是一年級一班和一年級三班的總體水平是“一樣的”,而且他們比一年級二班的水平高。因為在使用平均值進行比較時,實際直觀感覺是在對比3個班級中每一個學生個體。
所有這類用單一的數據定義來概括性描述一些抽象或復雜數據的方式方法都叫做“指標”。平均分在這里就是一個很好的指標,因為它用一個簡潔的數據定義概括了眾多數據的特性。平均值和樣本數量(學生數)這兩個值就基本可以描述清楚學生分數的高低情況了。在上述例子里,平均分這種指標恐怕不是由某個數學家或者智商殊絕于人的家伙特意發明出來的,而是在生活中由于要進行對象數據的宏觀描述而自然而然產生的一種方便的數值計算和描述方法。
另外,指標在很多企事業單位、學術技術領域都有廣泛的應用。如證券交易中有很多價格指標——用來描述價格震蕩的劇烈程度、價格變化的趨勢等;環保領域有PM2.5濃度指標;以及交通警察在測量司機是否酒駕時使用的血液酒精濃度——BAC指標等。圖4-4所示為家用多功能環境測量儀器的各種污染指標顯示,有甲醛、PM2.5、PM10、VOC和電磁輻射,這些數值化的讀數都是指標。

圖4-4 污染指標顯示
指標的使用有助于我們簡練地描述對象。再回到班級成績統計的例子。
“一年級一班有40名學生,3門課程平均分為80分”。
“一年級二班有60名學生,3門課程平均分為75分”。
“一年級三班有50名學生,3門課程平均分為80分”。
從這組數據來看,基本可以得到一個印象,就是一年級一班的成績“普遍”比一年級二班“好”,至少是從“宏觀體現”上看比二班好,它和一年級三班“一樣好”。但是一年級一班和一年級三班這兩個班的每個人的成績都是一樣的嗎?至少人數是不一樣的。那么也許還需要進一步地描述這平均下來的80分和每個學生具體的課程分數之間的差異性有多大,這就涉及另一個描述的需求——標準差。
4.1.3 標準差
我們先上公式,標準差公式如下:

下面解釋一下這個公式的含義。
我們以一年級一班所有40個學生為例,那么3門考試的情況下全班就有120個分數參與統計,也就是n=120。把每個學生每門課的成績減去全班的3個學科總的平均分80分,這樣得到120個差值,再把這些差值分別平方(主要是為了去掉負數,因為在分數差距里面,不管是比這個平均值多,還是比這個平均值少,都被視為偏差),將這些平方的結果再加和,之后除以參與統計的學科數量120,最后開平方,這個數字只可能是一個大于等于零的數字。用漢字描述起來很啰嗦,但是一旦變成一個標準差的指標以后,由于是約定俗成的,所以只需要“標準差”這3個字就能表示了。
這個數字表示的是什么含義?從這個數字得到的過程其實不難看出來。
如果所有的人的所有課程成績都是和平均分一樣,那么算出來的標準差就是0,因為每一個肯定都是02;反之,如果所有的人的課程成績與平均分的差距都很大,好的很好,差的很差,那么結果就是這個值會很大。如果一個班級成績標準差比另一個班級成績的標準差小,說明學生之間的考試成績水平差不多,標準差大則說明學生之間的考試成績水平相差比較大。
需要說明的是,一般來說為了在教學戰術指導層面讓平均值和標準差更有針對性,通常是不會像例子里這樣來操作的。更多的是以一個班為單位,求班里某一個學科成績的平均值和標準差,或者求某一個學生所有學科的平均值和標準差。這兩種計算分別用來描述一個教師教學的成果和某個學生的成績以及偏科的程度。
例如,“一年級三班有50名學生,英語考試平均分為80分,標準差為4.25”,“張三同學,語文、數學、英語三門課的平均分為90分”。
前者能夠反映教授這個班的英語教師的教學情況,后者能夠反映張三這名學生的各學科學習情況——當然都是粗獷的概述性描述。
加和值(總和值)、平均值、標準差,這幾個值是在生產生活中大量應用的統計學指標。不過在此需要強調的是,也是很容易被人誤讀的地方。那就是,平均值、標準差是客觀的計算結果,是描述性的說明,但是絕非對比和評價的標準。
不少人認為,某學校某老師的學生的高考平均分比另一學校另一老師的學生平均分要高,這一定說明這個學校這個老師的教學水平要高。這個因果關系不一定是正確的,因為一旦在生活中應用,客觀場景的細節會讓這種對比變得毫無意義。雖然從廣大家長的視角去看,不管怎么樣,只要有選擇的余地,比較兩個班的平均成績來判斷自己的孩子進入哪個班未來會更有利是有道理的。
舉個反例。如果這兩個學校的老師的生源本身就有很懸殊的差距:一個老師的學生平均分都在80分左右,只能上一般的大學;另一個老師則有不少85分以上的學生,還有大量60、70分的“關系戶”學生,如圖4-5所示。那么或許后者的班級里誕生清華北大的學生的可能性還會比前一個班更大也未可知。

圖4-5 學生水平懸殊

圖4-5 (續)
所以,請讀者注意,平均分、標準差只能做描述用,只是一種簡潔的描述方法,最多只能幫助我們讓數據宏觀的“畫面感”更飽滿。它們既不是對比的標尺,也不是用來具體做規則制定用的硬性尺度,更不能用來孤立地評價好壞,因為“好壞”這種含有大量主觀判斷色彩以及個性化好惡的東西本身就很抽象而且標準繁多。
- 使用GitOps實現Kubernetes的持續部署:模式、流程及工具
- 分布式數據庫系統:大數據時代新型數據庫技術(第3版)
- 商業分析思維與實踐:用數據分析解決商業問題
- Lean Mobile App Development
- Mockito Cookbook
- 城市計算
- INSTANT Cytoscape Complex Network Analysis How-to
- 智能數據時代:企業大數據戰略與實戰
- Spark大數據分析實戰
- 深入淺出 Hyperscan:高性能正則表達式算法原理與設計
- SQL應用及誤區分析
- 淘寶、天貓電商數據分析與挖掘實戰(第2版)
- Hadoop 3實戰指南
- 從實踐中學習sqlmap數據庫注入測試
- Expert Python Programming(Third Edition)